生成代理:人类行为的交互模拟体

 朴俊成
斯坦福大学斯坦福美国
[email protected]
 约瑟夫·C·奥布莱恩
斯坦福大学斯坦福美国
[email protected]
 蔡嘉琪
谷歌研究 加利福尼亚州山景城 美国
[email protected]
 梅雷迪思·林格尔·莫里斯
谷歌研究西雅图,华盛顿,美国
[email protected]
 梁佩西
斯坦福大学斯坦福美国
[email protected]
 and   迈克尔·S·伯恩斯坦
斯坦福大学斯坦福美国
[email protected]
(2023)
Abstract.


可信的人类行为代理可以为各种互动应用提供支持,包括沉浸式环境、人际交流排练空间和原型工具。在本文中,我们介绍了生成代理——模拟可信人类行为的计算软件代理。生成代理会起床、做早餐,然后去上班;艺术家会绘画,作家会写作;他们会形成观点,注意彼此,并开始对话;他们会回忆和反思过去的日子,同时计划未来的一天。为了实现生成代理,我们描述了一种架构,将大型语言模型扩展为使用自然语言存储代理的完整经历记录,随着时间的推移将这些记忆综合成更高层次的反思,并动态地检索它们以规划行为。我们实例化生成代理,将其应用于一个受《模拟人生》启发的交互式沙盒环境,最终用户可以使用自然语言与二十五个代理居民进行互动。 在评估中,这些生成式代理产生了可信的个体和新兴的社交行为:例如,仅从一个用户指定的概念开始,即一个代理想要举办情人节派对,代理在接下来的两天里自主地传播派对的邀请,结识新朋友,互相邀请参加派对,并协调好在正确的时间一起出现在派对上。我们通过消融实验证明了我们代理架构的组成部分——观察、规划和反思——对于代理行为的可信度至关重要。通过将大型语言模型与计算机交互代理相结合,这项工作引入了架构和交互模式,以实现对人类行为的可信模拟。


人工智能与人类的互动,代理人,生成式人工智能,大型语言模型
 期刊年份:2023copyright: acmlicensedconference: arXiv; April, 2023; price: 15.00doi: xx.xx/xx.xxisbn: xx-x-xxxx-xxxx-x/xx/xxccs: Human-centered computing Interactive systems and toolsccs: Computing methodologies Natural language processing

图1.生成代理人为交互应用程序创建可信的人类行为模拟。在这项工作中,我们通过在一个类似《模拟人生》的沙盒环境中放置25个代理人来展示生成代理人的功能。用户可以观察和干预代理人的日常计划、新闻分享、人际关系形成和团体活动协调。
Refer to caption


一个由生成代理人居住的游戏世界的截图。


图1.生成代理人为交互应用程序创建可信的人类行为模拟。在这项工作中,我们通过在一个类似《模拟人生》的沙盒环境中放置25个代理人来展示生成代理人的功能。用户可以观察和干预代理人的日常计划、新闻分享、人际关系形成和团体活动协调。

1. Introduction


我们如何打造一个反映可信人类行为的互动人工社会?从沙盒游戏如《模拟人生》到认知模型应用(Card等,1983年)和虚拟环境(Laird和VanLent,2001年;Bates,1994年),在过去的四十多年里,研究人员和实践者一直设想能够作为可信人类行为代理的计算机代理。在这些设想中,计算机驱动的代理根据他们过去的经验一致行动,并对环境做出可信的反应。这种人类行为的模拟可以在虚拟空间和社区中填充真实的社会现象(Dill和Martin,2011年;Park等,2022年),训练人们如何处理罕见但困难的人际关系情境(Tambe等,1995年;Jones等,1999年;Hollan等,1984年),测试社会科学理论(Binz和Schulz,2023年;Horton,2023年),打造用于理论和可用性测试的模型人类处理器(Card等,1983年;John和Kieras,1996年;Hämäläinen等,2023年),为普适计算应用提供动力(Fast等。2016年)和社交机器人(Bates, 1994; Bledsoe, 1986),并支撑着不可玩游戏角色(Laird and VanLent, 2001; Riedl, 2012),他们能够在开放世界中导航复杂的人际关系。


然而,人类行为的空间是广阔而复杂的(Riedl,2012;Yannakakis,2012a)。尽管在大型语言模型方面取得了显著进展(Brown等,2020),这些模型可以在单个时间点上模拟可信的人类行为(Park等,2022;Hämäläinen等,2023),但完全通用的代理人需要采用能够管理不断增长的记忆的架构,以应对随着时间的推移而出现和消失的新的互动、冲突和事件,同时处理在多个代理人之间展开的级联社会动态。成功需要一种方法,能够在长时间内检索相关事件和互动,回顾这些记忆以进行概括和得出更高层次的推理,并将这种推理应用于创建在当下和代理人行为的长期轨迹中都有意义的计划和反应。


在本文中,我们介绍了生成型智能体——这些智能体利用生成模型来模拟可信的人类行为,并证明它们能够产生出既真实又逼真的个体和群体行为的模拟。生成型智能体对自身、其他智能体和环境进行了各种推理;它们制定了反映自身特征和经验的日常计划,并按计划行动,在适当的时候做出反应和重新规划;当最终用户改变了它们的环境或用自然语言命令它们时,它们会做出相应的回应。例如,当生成型智能体发现早餐正在烧焦时,它们会关掉炉子;如果浴室被占用,它们会在外面等待;当它们遇到想要交谈的另一个智能体时,它们会停下来聊天。一个充满生成型智能体的社会具有新兴的社会动态,新的关系形成,信息扩散,并且智能体之间实现协调。


为了使生成式智能体能够生成可信行为,我们描述了一种智能体架构,该架构存储、综合和应用相关记忆,利用大型语言模型生成可信行为。我们的架构包括三个主要组件。第一个是记忆流,这是一个长期记忆模块,以自然语言记录智能体的全面经历列表。检索模型结合相关性、最新性和重要性,以提取需要用于指导智能体每时每刻行为的记录。第二个是反思,它将记忆综合成随时间推移的更高级推理,使智能体能够对自身和他人做出结论,以更好地指导其行为。第三个是规划,它将这些结论和当前环境转化为高级行动计划,然后递归地转化为详细的行为和反应。这些反思和计划被反馈到记忆流中,以影响智能体的未来行为。


这种架构在多个领域中都有应用的可能,从角色扮演和社交原型到虚拟世界和游戏。在社交角色扮演场景中(例如面试准备),用户可以安全地排练困难、充满冲突的对话。在原型设计社交平台时,设计师可以超越临时角色,原型动态、复杂的随时间展开的互动。在本文中,我们关注创建一个受到《模拟人生》等游戏启发的小型互动社会的能力。

通过将我们的架构与ChatGPT大型语言模型(OpenAI,id)连接起来,我们在游戏环境中创建了一个由25个代理组成的小型社会。最终用户可以观察和与这些代理进行交互。例如,如果最终用户或开发人员希望该城镇举办一个游戏内的情人节派对,传统的游戏环境需要手动编写数十个角色的行为脚本。我们证明,通过生成式代理,只需告诉一个代理人她想要举办派对就足够了。尽管存在许多潜在的失败点 - 派对策划者必须记得告诉其他代理人有关派对的事情,参与者必须记得邀请,那些记得的人必须决定是否真的出席,以及其他可能的失败点 - 但我们环境中的代理人成功了。他们传播了派对的消息,然后出席了派对,其中一个代理人甚至向另一个代理人邀请了一个约会,所有这些都来自于这个单一的用户生成的种子建议。


我们对生成型代理进行了两次评估:一次是受控评估,测试代理是否能够在孤立环境中产生可信的个体行为;另一次是端到端评估,生成型代理在两天的游戏时间内以开放式方式相互交互,以了解它们的稳定性和新兴社交行为。在技术评估中,我们利用了一种方法论机会,通过以自然语言“面试”代理来评估其知识和行为,以探究代理在保持角色、记忆、计划、反应和准确反映方面的能力。我们比较了几种限制代理对记忆、反思和规划的访问的消融方法。我们观察到,这些组成部分对于在这些面试任务中表现出色至关重要。在技术评估和端到端评估中,最常见的错误是代理未能检索到相关记忆,对代理的记忆进行虚构修饰,或从语言模型中继承过于正式的言谈或行为方式。


总之,本文提供了以下贡献:


  • • 生成式智能代理,是对人类行为的逼真模拟,其行为会根据代理的不断经历和环境变化而动态调整。

  • 一种新颖的架构,使生成代理能够记忆、检索、反思、与其他代理互动,并通过动态演化的环境进行规划。该架构利用大型语言模型的强大提示能力,并补充这些能力以支持更长期的代理一致性,管理动态演化的记忆能力,并递归地产生更多的生成物。

  • • 两个评估(控制评估和端到端评估),旨在确定架构组件重要性的因果效应,并识别由于不正确的内存检索等原因引起的故障。

  • • 对交互系统中生成式智能体的机遇、伦理和社会风险进行讨论。我们认为,这些智能体应该被调整以减轻用户形成假性社交关系的风险,记录以减轻源自深度伪造和定制说服的风险,并以一种能够与人类利益相关者在设计过程中相辅相成而非取代的方式应用。

 2.相关工作


在本节中,我们回顾了人工智能与人类互动的先前文献,并将构建可信人类行为代理的议程置于其中。这个议程曾经被赞誉为互动、游戏和人工智能社区的北极星(Laird和VanLent,2001;Riedl,2012;Riedl和Young,2005;Bates,1994),但由于人类行为的复杂性(Brooks等,2000;Yannakakis,2012a),它仍然具有挑战性。我们综合这项研究,建议大型语言模型虽然本身并不足够,但在使用适当的架构进行利用时,可以开辟一个创造可信代理的新角度。

 2.1. 人工智能与人类的互动


互动人工智能系统旨在将人类的洞察力和能力与计算工具相结合,以增强用户的体验(Amershi等,2014年;Fails和Olsen Jr,2003年)。长期以来,人们一直在探索允许用户交互式指定模型行为的方法。例如,Crayons展示了交互式机器学习的早期愿景,使非专业用户能够训练分类器(Fails和Olsen Jr,2003年)。进一步的工作帮助阐明了最终用户如何通过示例(Fogarty等,2008年)和/或演示(Fiebrink和Cook,2010年)向系统描述其分类目标。最近的工作将这些探索扩展到深度学习(Lam等,2023年)和基于提示的创作(Jiang等,2022年;Wu等,2022b年;Liu等,2022年)。


与此同时,一系列持续的研究推动了语言和基于代理的人机交互的发展。《SHRDLU》(Winograd,1971)和《ELIZA》(Weizenbaum,1966)等开创性的工作展示了与计算系统进行自然语言交互的机会和风险。随着研究的进展,人工智能代理能够提供新的委托和交互隐喻(Maes,1995),但人类与代理之间的委托界限仍在不断讨论和完善(Shneiderman和Maes,1997;Horvitz,1999;Shneiderman,2022)。最近,这项技术已经足够稳定,使得代理能够在大型复杂的在线社交环境中通过自然语言进行交互(例如,Krishna等,2022)。自然语言交互提供了一种新颖的模式,可以扩展用户在诸如照片编辑(Linder等,2013;Fourney等,2011;Adar等,2014)和代码编辑(Rong等,2016)等领域的能力。


我们召集这些工作的线索,以展示我们现在能够创建代理人,代表人类行为与交互系统进行互动,并通过自然语言与它们交流。通过这样做,这项工作重新打开了研究基础人机交互问题的大门,如GOMS和KLM等认知模型(Card等,1983年,1980年),原型工具(Park等,2022年)以及普适计算应用(Weiser,1991年;Dey,2001年;Fast等,2016年)。


2.2.可信的人类行为代理


先前的文献已经描述了可信度或可信代理作为一个核心的设计和工程目标。可信代理被设计成给人一种生命的错觉,并以一种真实的方式来做出决策和行动,类似于迪士尼电影中的角色(Bates,1994;Thomas和Johnston,1981)。这些代理可以在我们所居住的开放世界环境中生活和感知(Laird和VanLent,2001;Bates,1994),并努力以展现出社交互动所产生的新兴行为为基础的方式来行为,以成为我们在个体和社区的假设模拟中行为的可信代理(McCoy等,2012;Burkinshaw,2009;Francis,2010)。从历史上看,这些代理是在智能游戏NPC(Laird和VanLent,2001;Riedl,2012)的背景下开发的。如果可能的话,创造出具有可信行为的NPC可以通过实现新兴叙事(Swartout等,2006;Aylett,1999;Brenner,2010;Ibister和Nass,2000)和与代理的社交互动来增强玩家在游戏和互动小说中的体验(Zubek,2002)。 然而,更重要的是,游戏世界提供了越来越逼真的现实世界的表现,正如Laird和van Lent在2001年观察到的那样,这些模拟世界为可信代理的开发者提供了可访问的测试平台,以完善代理的认知能力,而不必担心在现实世界中实施机器人或从头开始创建模拟环境(Laird和VanLent,2001; Riedl,2012)。


在过去的四十年中,出现了许多不同的方法来创建可信的代理。然而,在实施过程中,这些方法通常会简化环境或代理行为的维度,以使工作更易管理(Brooks等,2000年; Minsky和Papert,1970年)。基于规则的方法,如有限状态机(Siu等,2021年; Umarov等,2012年)和行为树(Knafla,2011年; Pillosu,2009年; Hecker,2011年),考虑到了人工编写代理行为的蛮力方法(McCoy等,2012年)。它们提供了一种简单的创建简单代理的方法,这仍然是目前最主流的方法(McCoy等,2009年; Miyashita等,2017年; Yannakakis,2012b年),甚至可以处理基本的社交互动,如模拟游戏《质量效应》(BioWare,2007年)和《模拟人生》(Arts,2009年)系列中所示。然而,手工制作能够全面应对开放世界中各种可能互动的行为是不可行的。这意味着生成的代理行为可能无法完全代表其互动的后果(McCoy等人。2012年,2011a,2011b),并且不能执行在其脚本中没有硬编码的新程序(Siu等,2021; Umarov等,2012)。另一方面,用于创建可信代理的流行基于学习的方法,如强化学习,通过让代理学习其行为来克服手动编写的挑战,并在最近几年在游戏中取得了超人类的表现,例如AlphaStar for Starcraft(Vinyals等,2019)和OpenAI Five for Dota 2(Berner等,2019)。然而,它们的成功主要发生在具有明确定义奖励的对抗性游戏中,学习算法可以进行优化。它们尚未解决在开放世界中创建可信代理的挑战(Siu等,2021; Miyashita等,2017; Hausknecht等,2020)。


认知架构在计算中的应用,由纽厄尔首创,旨在构建支持全面认知功能的基础设施(纽厄尔,1990),以适应其最初愿景中所持有的全面性特点。它们为最早的可信代理提供了动力。例如,Quakebot-SOAR(Laird,2000)和ICARUS(Langley等,nd;Choi等,2021)在第一人称射击游戏中生成了NPC,而TacAir-SOAR(Pew和Mavor,1998)在空中战斗训练模拟中生成了飞行员。这些代理所使用的架构不同(Quakebot-和TacAir-SOAR依赖于SOAR(Laird,2012),而ICARUS则依赖于其自身的变体,受到SOAR和ACT-R(Anderson,1993)的启发),但它们共享相同的基本原则(Laird等,2017)。它们维护短期和长期记忆,用符号结构填充这些记忆,并在感知-规划-行动循环中运行,动态感知环境并将其与手工制作的行动程序之一进行匹配(Umarov等,2012;Laird,2001)。 使用认知架构创建的代理人旨在适用于大多数,如果不是所有的开放世界环境,并展示出当时的强大行为。然而,他们的行动空间仅限于手工制作的程序化知识,并且他们没有提供一种机制,通过该机制代理人可以被激发寻求新的行为。因此,这些代理人主要部署在非开放世界环境中,如第一人称射击游戏(Laird, 2000; Choi et al., 2021)或方块世界(Langley et al., nd)。


今天,根据其原始定义创建可信代理仍然是一个未解决的问题(Yannakakis,2012a; Riedl,2012)。许多人已经转向,认为尽管现有的创建可信代理的方法可能繁琐且有限,但它们足以支持现有的游戏玩法和互动(Yannakakis,2012a; Champandard,2012; Nareyek,2007)。我们的观点是,大型语言模型为重新审视这些问题提供了机会,前提是我们能够构建一个有效的架构,将记忆合成为可信行为。在本文中,我们提供了朝着这样一个架构迈出的一步。


2.3. 大型语言模型与人类行为


生成式代理利用大型语言模型来驱动其行为。关键观察是,大型语言模型编码了其训练数据中所代表的广泛人类行为范围(Brown等,2020;Bommasani等,2022)。如果给定一个明确定义的上下文,这些模型可以用来生成可信的行为。最近的研究已经证明了这种方法的有效性。例如,Social Simulacra使用了一个大型语言模型来生成用户,这些用户将填充新的社交计算系统,以原型化其新兴的社交动态(Park等,2022)。这种方法使用了一个提示链(Wu等,2022a,b),以生成系统原型中出现的人物和其行为的简短自然语言描述。其他实证研究已经复制了现有的社会科学研究(Horton,2023),政治调查(Sorensen等,2022),以及生成了合成数据(Hämäläinen等,2023)。大型语言模型还被用来生成与用户互动的人类行为。 在游戏中,例如,这些模型已被用于创建互动小说(Freiknecht和Effelsberg,2020)和文字冒险游戏(Callison-Burch等,2022)。由于它们能够生成和分解动作序列,大型语言模型还被用于规划机器人任务(Huang等,2022)。例如,当面临一个任务时,比如拿起一个瓶子,模型会被提示将任务分解为更小的动作序列,比如前往放置瓶子的桌子并拿起它。


我们认为,基于上述工作,大型语言模型可以成为创建可信代理的关键要素。现有文献主要依赖于可以被视为一阶模板的少样本提示(Gao等,2020;Liu等,2021)或思维链提示(Wei等,2023)。这些模板在生成仅基于代理当前环境的行为方面非常有效(例如,一个喷子如何回应给定的帖子,一个机器人需要采取什么行动才能进入一个有门的房间)。然而,可信代理不仅需要基于当前环境进行条件训练,还需要基于大量的过去经验,而这在一阶提示中很难实现(并且到目前为止,由于底层模型的有限上下文窗口,这是不可能的)。最近的研究尝试通过增加静态知识库和信息检索方案(Khattab等,2023)或简单的摘要方案(Wu等,2021)来超越一阶提示。 本文将这些想法扩展到一个代理架构,该架构处理检索,其中过去的经验在每个时间步骤动态更新,并与代理的当前环境和计划混合,这些计划可能会相互加强或相互矛盾。


图2. 小镇沙盒世界,带有标记的区域。根节点描述整个世界,子节点描述区域(例如房屋、咖啡馆、商店),叶节点描述物体(例如桌子、书架)。代理记住一个子图,反映他们所见过的世界的部分,以他们看到的状态。
Refer to caption


游戏世界的标记地图。


图2. 小镇沙盒世界,带有标记的区域。根节点描述整个世界,子节点描述区域(例如房屋、咖啡馆、商店),叶节点描述物体(例如桌子、书架)。代理记住一个子图,反映他们所见过的世界的部分,以他们看到的状态。


3.生成式代理行为和互动


为了使生成代理的功能具体化,我们将它们实例化为一个简单的沙盒世界中的角色,这个世界让人想起《模拟人生》(Arts,2009)。这个基于精灵的沙盒游戏世界,Smallville,呈现出一个小镇环境。在本节中,我们将介绍在Smallville中与生成代理的功能和互动,并描述代理在其中的行为。然后,在第4节中,我们介绍了支持这些功能和互动的生成代理架构。在第5节中,我们描述了沙盒环境的实现以及代理与沙盒世界底层引擎的互动。


3.1. 代理人头像和沟通


一个由25个独特的代理人组成的社区居住在小镇。每个代理人都由一个简单的精灵头像来代表。我们为每个代理人的身份编写了一个自然语言描述段落,包括他们的职业和与其他代理人的关系,作为种子记忆。例如,约翰·林的描述如下:


约翰·林是柳市药店的店主,他热衷于帮助人们。他一直在寻找让顾客更轻松获得药物的方法;约翰·林与妻子梅·林一起生活,梅·林是一名大学教授,他们有一个儿子埃迪·林,正在学习音乐理论;约翰·林非常爱他的家人;约翰·林认识隔壁的老夫妇山姆·摩尔和詹妮弗·摩尔已经有几年了;约翰·林认为山姆·摩尔是一个善良友好的人;约翰·林很了解他的邻居山本百合子;约翰·林知道他的邻居塔玛拉·泰勒和卡门·奥尔蒂斯,但之前没有见过他们;约翰·林和汤姆·莫雷诺是柳市药店的同事;约翰·林和汤姆·莫雷诺是朋友,喜欢一起讨论当地政治;约翰·林对莫雷诺一家有一定了解,包括丈夫汤姆·莫雷诺和妻子简·莫雷诺。


每个以分号分隔的短语都被输入到代理程序的初始记忆中,作为模拟开始时的记忆。


3.1.1. 代理间通信


代理通过他们的行动与世界互动,并通过自然语言与彼此交流。在沙盒引擎的每个时间步骤中,代理会输出一个自然语言陈述,描述他们当前的行动,例如“Isabella Rodriguez正在写她的日记”,“Isabella Rodriguez正在查看她的电子邮件”,“Isabella Rodriguez正在与她的家人通电话”,或者“Isabella Rodriguez正在准备睡觉”。然后,这个陈述会被转化为影响沙盒世界的具体动作。这个行动会在沙盒界面上显示为一组表情符号,以俯视图中的抽象表示。为了实现这一点,系统采用了一个语言模型,将行动翻译成一组表情符号,这些表情符号出现在每个头像的气泡中。例如,“Isabella Rodriguez正在写她的日记”显示为,而“Isabella Rodriguez正在查看她的电子邮件”显示为。点击代理头像可以访问完整的自然语言行动描述。


代理人之间使用完整的自然语言进行交流。代理人知道他们所在地区的其他代理人,生成式代理人架构决定他们是继续走过去还是参与对话。这里是代理人Isabella Rodriguez和Tom Moreno关于即将到来的选举的对话中的一个样本:2


伊莎贝拉:我还在权衡我的选择,但我一直在与萨姆·摩尔讨论选举。你对他有什么看法?

汤姆:老实说,我不喜欢山姆·摩尔。我觉得他与社区脱节,没有我们的最佳利益在心。

 3.1.2.用户控件


运行此模拟的用户可以通过对话与代理进行交流,或通过发出“内心声音”的方式向代理发出指令,从而操控和干预模拟过程。


用户通过自然语言与代理人进行交流,通过指定一个角色让代理人感知他们的身份。例如,如果用户指定自己是一名新闻“记者”并询问即将到来的选举,“谁参选了?”约翰代理人回答:


约翰:我和我的朋友Yuriko、Tom一直在谈论即将到来的选举,并讨论候选人Sam Moore。我们都同意投票支持他,因为我们喜欢他的政纲。


为了直接指挥其中一名特工,用户会扮演特工的“内心声音”,这样特工更有可能将指令视为命令。例如,当用户以约翰的内心声音告诉他“你将在即将到来的选举中与山姆竞选”时,约翰决定参选,并与妻子和儿子分享了他的候选人身份。


3.2. 环境互动


Smallville拥有一个小村庄的常见设施,包括咖啡馆、酒吧、公园、学校、宿舍、房屋和商店。它还定义了使这些空间功能正常运作的子区域和物体,例如房屋中的厨房和厨房中的炉灶(图2)。所有作为居住区的主要生活区域的空间都配备了床、书桌、衣柜、架子,以及浴室和厨房。3


代理人在Smallville中的移动方式就像在简单的视频游戏中一样,进入和离开建筑物,导航地图,并接近其他代理人。代理人的移动由生成式代理架构和沙盒游戏引擎控制:当模型决定代理人将移动到某个位置时,我们会计算出在Smallville环境中到达目的地的步行路径,然后代理人开始移动。此外,用户还可以作为一个代理人进入Smallville的沙盒世界进行操作。用户所扮演的代理人可以是已经存在于世界中的代理人,比如Isabella和John,也可以是一个没有在Smallville中有过历史的外来访客。Smallville的居民对用户控制的代理人并不会有任何不同的对待。他们会察觉到它的存在,发起互动,并在形成对它的看法之前记住它的行为。


用户和代理可以像《模拟人生》等沙盒游戏中一样影响这个世界中物体的状态。例如,当代理人在睡觉时,床可以被占用,当代理人用完食材做早餐时,冰箱可以是空的。最终用户还可以通过自然语言重塑Smallville中代理人的环境,改写周围物体的状态。例如,当伊莎贝拉早上在做早餐时,用户可以通过输入命令将厨房炉子的状态从“打开”改为“燃烧”,命令会选择物体并说明其新的状态,就像这样:“¡伊莎贝拉的公寓:厨房:炉子¿正在燃烧。”伊莎贝拉会在下一刻注意到这一点,然后去关掉炉子并重新做早餐。同样,如果用户在伊莎贝拉进入浴室时将淋浴的状态设置为“漏水”,她会从客厅拿工具来修理漏水。


图3. 生成代理人约翰·林的早晨。约翰大约早上6点醒来,完成他的早晨例行事务,包括刷牙、洗澡和吃早餐。他简短地与妻子梅和儿子埃迪交流一下,然后出门开始他的工作日。
Refer to caption


林家的早晨日常。


图3. 生成代理人约翰·林的早晨。约翰大约早上6点醒来,完成他的早晨例行事务,包括刷牙、洗澡和吃早餐。他简短地与妻子梅和儿子埃迪交流一下,然后出门开始他的工作日。

图4. 在模拟开始时,一个代理人被初始化为组织一个情人节派对的意图。尽管在接下来的一系列事件中可能会出现许多潜在的失败点 - 代理人可能不会采取行动,可能会忘记告诉其他人,可能会忘记出席 - 但情人节派对实际上确实发生了,有许多代理人聚集并互动。
Refer to caption


霍布斯咖啡馆的情人节派对。


图4. 在模拟开始时,一个代理人被初始化为组织一个情人节派对的意图。尽管在接下来的一系列事件中可能会出现许多潜在的失败点 - 代理人可能不会采取行动,可能会忘记告诉其他人,可能会忘记出席 - 但情人节派对实际上确实发生了,有许多代理人聚集并互动。


3.3. 例子:“一天的生活”


从单段描述开始,代理人开始计划他们的日程。随着时间在沙盒世界中流逝,他们的行为会随着代理人之间和世界的互动而演变,建立记忆和关系,并协调共同的活动。


我们通过追踪我们系统在一天中对代理人约翰·林(图3)的输出来展示生成代理的行为。在林家中,约翰是第一个在早上7点醒来的人。他刷牙、洗澡、穿衣服、吃早餐,并在客厅的餐桌上查看新闻。早上8点,埃迪紧随其后,匆忙从床上起来准备上课。他赶上约翰正要出门的时候:


约翰:早上好,埃迪。你睡得好吗?

Eddy:早上好,爸爸。是的,我睡得很好。

约翰:太好了。你今天在做什么工作?

Eddy:我正在为我的课程创作一首新的音乐作品。这周就要交了,所以我正努力完成它。但是我玩得太开心了!
 约翰:听起来很棒!


艾迪出门后不久,梅醒来并与约翰会合。梅询问她的儿子,约翰回忆起他们刚刚进行的对话:


梅:艾迪已经去上学了吗?

约翰:是的,他刚刚离开了。他正在为他的课程创作音乐。

美:哦,太棒了!告诉我一下。

约翰:我觉得他真的很喜欢!他说他玩得很开心。

美:太好了!我为他感到非常骄傲。


他们结束了谈话后,梅和约翰开始收拾东西。梅继续教学并着手研究论文,而约翰则在早上9点之前在柳市场和药店开设他的药房柜台。


图5.我们的生成式代理架构。代理感知其环境,并将所有感知保存在一个称为记忆流的代理经历的综合记录中。根据它们的感知,架构检索相关的记忆,然后使用这些检索到的行动来确定一个行动。这些检索到的记忆还用于形成长期计划,并创建更高层次的反思,这两者都被输入到记忆流中以供将来使用。
Refer to caption


生成代理的架构。


图5.我们的生成式代理架构。代理感知其环境,并将所有感知保存在一个称为记忆流的代理经历的综合记录中。根据它们的感知,架构检索相关的记忆,然后使用这些检索到的行动来确定一个行动。这些检索到的记忆还用于形成长期计划,并创建更高层次的反思,这两者都被输入到记忆流中以供将来使用。


3.4. 紧急社会行为


通过相互交互,Smallville中的生成式智能体交换信息、建立新关系并协调共同活动。在之前的研究基础上进行扩展(Park等人,2022),这些社交行为是 emergent(自发的)而非预先编程的。


3.4.1. 信息传播


当代理人相互注意到对方时,他们可以进行对话,通过对话,信息可以从一个代理人传播到另一个代理人。例如,在杂货店里,Sam和Tom之间的对话中,Sam告诉Tom他参加了当地选举的候选人资格。


Sam: 嘿,汤姆,最近怎么样?

汤姆:好的,谢谢。有什么事吗?

Sam: 嗯,我想和你谈谈一些事情。事实上,我打算参加即将到来的地方选举竞选市长。

汤姆:真的吗?太好了!你为什么在跑?

Sam:我参与地方政治已经有好几年了,我真的觉得我可以在我们社区做出改变。而且,我想要带来新的想法和观点。


当天晚些时候,萨姆离开后,汤姆和约翰从另一个消息来源得知了这个消息,他们讨论了萨姆在选举中获胜的机会


约翰:我听说山姆·摩尔参加了地方选举竞选市长。你觉得他有很大的胜算吗?

汤姆:我确实认为他有很大的机会。他在社区里一直努力工作,我觉得他会得到很多支持。你觉得呢?

约翰:我觉得他参选很棒。我很好奇还有谁会参选,选举结果会如何。


渐渐地,山姆的候选人身份成为了城里人议论的话题,有些人支持他,而其他人则还没有做出决定。


3.4.2. 关系记忆


在小镇上,特工们会随着时间建立新的关系,并记住与其他特工的互动。例如,萨姆一开始不认识拉托亚·威廉姆斯。在约翰逊公园散步时,萨姆遇到了拉托亚,他们互相介绍并拉托亚提到她正在进行一个摄影项目:“我在这里拍照,为我正在进行的一个项目。”在之后的互动中,萨姆与拉托亚的互动表明他记得那次互动,他问道:“嗨,拉托亚,你的项目进展如何?”她回答:“嗨,萨姆,进展顺利!”

3.4.3. Coordination


生成代理互相协调。在霍布斯咖啡馆,伊莎贝拉·罗德里格斯被初始化为在2月14日下午5点到7点举办情人节派对的意图。从这个起点开始,代理会在霍布斯咖啡馆或其他地方见到朋友和顾客时邀请他们参加派对。伊莎贝拉在13日下午为这个场合装饰咖啡馆。玛丽亚,一个经常光顾咖啡馆的好朋友,来到了咖啡馆。伊莎贝拉请求玛丽亚帮忙装饰派对,玛丽亚答应了。玛丽亚的角色描述提到她暗恋克劳斯。那天晚上,玛丽亚邀请了她的暗恋对象克劳斯参加派对,他欣然接受了。


在情人节那天,包括克劳斯和玛丽亚在内的五名特工下午5点来到霍布斯咖啡馆,他们享受着节日的氛围(图4)。在这个情景中,最终用户只设定了伊莎贝拉举办派对的初衷以及玛丽亚对克劳斯的喜欢:传播消息、装饰、相互约会、到达派对现场以及在派对上相互交流的社交行为都是由特工架构发起的。


生成式代理架构


生成型智能体旨在为开放世界中的行为提供一个框架:一个可以与其他智能体进行互动并对环境变化做出反应的框架。生成型智能体将当前环境和过去的经验作为输入,并生成行为作为输出。这种行为的基础是一种新颖的智能体架构,它将大型语言模型与合成和检索相关信息的机制相结合,以对语言模型的输出进行调节。如果没有这些机制,大型语言模型可以输出行为,但生成的智能体可能不会根据智能体的过去经验做出反应,可能不会进行重要推理,也可能无法保持长期的一致性。即使在如GPT-4这样性能最好的模型中,长期规划和一致性仍然存在挑战(Bubeck等,2023)。由于生成型智能体会产生大量的事件和记忆,这些必须被保留,我们架构的核心挑战之一是确保在需要时检索和合成智能体记忆中最相关的部分。


我们架构的核心是内存流,它是一个数据库,记录了代理人的全部经验。从内存流中,记录被检索出来,以计划代理人的行动并对环境做出适当反应,记录被递归地合成为更高级别的观察,指导行为。架构中的一切都以自然语言描述的形式记录和推理,使架构能够利用一个庞大的语言模型。


我们目前的实施采用了ChatGPT的gpt3.5-turbo版本(OpenAI,id)。我们预计,在语言模型改进的过程中,生成式代理的基本架构——记忆、规划和反思——可能会保持不变。新的语言模型(例如GPT-4)将继续扩展生成式代理的基础提示的表达能力和性能。然而,截至目前,GPT-4的API仍然仅限邀请使用,因此我们的代理使用ChatGPT。


图6.记忆流包含大量与代理人当前情境相关和不相关的观察。检索识别出这些观察中应该传递给语言模型以调整其对情境作出回应的子集。
Refer to caption


在左边,有一个大型的事件列表,例如“冰箱闲置”。在右边,有一个问题:“你现在最期待什么?”,接着是排名较高的“为派对订购装饰品”和“研究派对的创意”的检索计算。基于这些记忆,伊莎贝拉回答道:“我正在计划在霍布斯咖啡举办的情人节派对,我非常期待!”


图6.记忆流包含大量与代理人当前情况相关和不相关的观察。检索识别出这些观察中应该传递给语言模型以调整其对情况的回应的子集。

 4.1. 记忆与检索

 挑战:


创建能够模拟人类行为的生成代理需要对一组经验进行推理,这组经验远远超出了提示中应该描述的范围,因为完整的记忆流可能会分散模型的注意力,而且目前甚至无法适应有限的上下文窗口。考虑到Isabella代理回答问题“最近你对什么充满热情?”。首先,将Isabella的所有经验概括到语言模型的有限上下文窗口中会产生一个无信息量的回答,其中Isabella讨论了诸如活动和项目的合作、咖啡馆的清洁和组织等话题。与其进行概括,下面描述的记忆流会呈现相关的记忆,从而产生一个更具信息量和具体的回答,提到了Isabella对让人们感到受欢迎和包容的热情,策划活动并创造人们可以享受的氛围,比如情人节派对。

 方法:


记忆流维护了代理人经历的全面记录。它是一个记忆对象的列表,每个对象包含自然语言描述、创建时间戳和最近访问时间戳。记忆流的最基本元素是观察,即代理人直接感知到的事件。常见的观察包括代理人自己执行的行为,或者代理人感知到其他代理人或非代理人对象执行的行为。例如,Isabella Rodriguez 在一家咖啡店工作,随着时间的推移,她可能积累了以下观察:(1)Isabella Rodriguez 正在摆放糕点,(2)Maria Lopez 正在喝咖啡备考化学考试,(3)Isabella Rodriguez 和 Maria Lopez 正在讨论在 Hobbs Cafe 举办情人节派对的计划,(4)冰箱是空的。


我们的架构实现了一个检索功能,它以代理人当前的情况作为输入,并返回一个子集的记忆流以传递给语言模型。检索功能有许多可能的实现方式,取决于在决定如何行动时,代理人需要考虑什么是重要的。在我们的背景下,我们关注三个主要组件,它们共同产生有效的结果。


最近性将更高的分数分配给最近访问过的记忆对象,因此一刻钟前或今天早上的事件很可能仍然留在代理人的注意力范围内。在我们的实现中,我们将最近性视为自上次检索记忆以来沙盒游戏小时数的指数衰减函数。我们的衰减因子是 0.990.990.990.99


重要性区分了平凡的记忆和核心记忆,通过给代理人认为重要的记忆对象分配更高的分数。例如,像在自己的房间吃早餐这样的平凡事件会得到低的重要性分数,而与自己的重要人物分手会得到高分。关于重要性分数,有许多可能的实现方式;我们发现直接要求语言模型输出一个整数分数是有效的。完整的提示如下:


在1到10的尺度上,其中1代表纯粹平凡的事情(例如刷牙、整理床铺),而10代表极其深刻的事情(例如分手、大学录取),请评估以下记忆片段可能的深刻程度。


购物记忆:在柳树市场和药店购买杂货

 评分: <填写>


这个提示返回整数值2表示“整理房间”,返回整数值8表示“约你心仪的人出去约会”。重要性分数是在创建记忆对象时生成的。


相关性为与当前情境相关的记忆对象分配更高的分数。什么是相关的取决于对“相关于什么?”的回答,因此我们将相关性条件化为查询记忆。例如,如果查询是一个学生正在与同学讨论如何备考化学考试,那么关于早餐的记忆对象应该具有较低的相关性,而关于老师和学校作业的记忆对象应该具有较高的相关性。在我们的实现中,我们使用语言模型生成每个记忆的文本描述的嵌入向量。然后,我们通过计算记忆的嵌入向量与查询记忆的嵌入向量之间的余弦相似度来计算相关性。


为了计算最终的检索分数,我们将最新性、相关性和重要性分数进行最小-最大缩放,使其范围在 [0,1]01[0,1][ 0 , 1 ] 之间。检索函数将所有记忆作为三个元素的加权组合进行评分: score=αrecencyrecency+αimportanceimportance+αrelevancerelevance𝑠𝑐𝑜𝑟𝑒subscript𝛼𝑟𝑒𝑐𝑒𝑛𝑐𝑦𝑟𝑒𝑐𝑒𝑛𝑐𝑦subscript𝛼𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑐𝑒𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑐𝑒subscript𝛼𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒score=\alpha_{recency}\cdot recency+\alpha_{importance}\cdot importance+\alpha_{relevance}\cdot relevanceitalic_s italic_c italic_o italic_r italic_e = italic_α start_POSTSUBSCRIPT italic_r italic_e italic_c italic_e italic_n italic_c italic_y end_POSTSUBSCRIPT ⋅ italic_r italic_e italic_c italic_e italic_n italic_c italic_y + italic_α start_POSTSUBSCRIPT italic_i italic_m italic_p italic_o italic_r italic_t italic_a italic_n italic_c italic_e end_POSTSUBSCRIPT ⋅ italic_i italic_m italic_p italic_o italic_r italic_t italic_a italic_n italic_c italic_e + italic_α start_POSTSUBSCRIPT italic_r italic_e italic_l italic_e italic_v italic_a italic_n italic_c italic_e end_POSTSUBSCRIPT ⋅ italic_r italic_e italic_l italic_e italic_v italic_a italic_n italic_c italic_e 。在我们的实现中,所有的 α𝛼\alphaitalic_α 都被设置为1。符合语言模型上下文窗口的排名靠前的记忆将被包含在提示中。

4.2. Reflection


图7. Klaus Mueller的反思树。代理人对世界的观察以叶节点的形式递归合成,从而得出Klaus对自己高度专注于研究的自我认知。
Refer to caption

 倒影树。


图7. Klaus Mueller的反思树。代理人对世界的观察以叶节点的形式递归合成,从而得出Klaus对自己的认知,即他对研究非常投入。

 挑战:


生成式智能体,当只配备原始的观察记忆时,很难进行概括或推理。考虑这样一个情景,用户问Klaus Mueller:“如果你必须选择一个你认识的人陪你度过一个小时,你会选择谁?”只有观察记忆的情况下,智能体简单地选择与Klaus有最频繁互动的人:他的大学宿舍邻居Wolfgang。不幸的是,Wolfgang和Klaus只是偶尔见面,并没有深入的交流。更理想的回答需要智能体从Klaus花几个小时在研究项目上的记忆中进行概括,生成一个更高层次的反思,即Klaus对研究充满热情,并且同样认识到Maria在自己的研究中付出了努力(尽管在不同领域),从而形成一个共同兴趣的反思。通过下面的方法,当Klaus被问到要和谁共度时光时,Klaus选择Maria而不是Wolfgang。

 方法:


我们介绍了第二种记忆类型,我们称之为反思。反思是由代理生成的更高级、更抽象的思考。因为它们是一种记忆类型,所以在检索发生时,它们与其他观察结果一起被包括进来。反思是定期生成的;在我们的实现中,当代理感知到的最新事件的重要性得分总和超过一定阈值时,我们生成反思。在实践中,我们的代理大约每天反思两到三次。


反思的第一步是代理人确定要反思的内容,通过确定根据代理人最近的经历可以提出的问题。我们使用代理人记忆流中最近的100条记录(例如,“Klaus Mueller正在阅读一本关于城市更新的书”,“Klaus Mueller正在与图书管理员讨论他的研究项目”,“图书馆的桌子目前没有人占用”)向大型语言模型提问:“仅根据上述信息,我们可以回答关于这些陈述中的主题的3个最重要的高层次问题是什么?”模型的回答生成候选问题,例如:“Klaus Mueller对哪个主题充满热情?”和“Klaus Mueller与Maria Lopez之间的关系是什么?”我们将这些生成的问题作为检索的查询,并收集与每个问题相关的记忆(包括其他反思)。然后,我们提示语言模型提取见解,并引用作为见解证据的特定记录。完整的提示如下:


关于 Klaus Mueller 的陈述


克劳斯·穆勒正在撰写一篇研究论文。


2. Klaus Mueller喜欢阅读一本关于城市更新的书。 3. Klaus Mueller正在与Ayesha Khan谈论锻炼身体的事情。 从以上陈述中,你能推断出5个高层次的见解吗?(示例格式:见解(因为1、5、3))


这个过程会生成类似于 Klaus Mueller 致力于他对城市更新的研究(因为1、2、8、15)的陈述。我们将该陈述解析并存储为内存流中的一个反映,包括对被引用的内存对象的指针。


反思明确地允许代理人不仅对他们的观察进行反思,还可以对其他反思进行反思:例如,上面关于Klaus Mueller的第二个陈述是Klaus之前的一种反思,而不是来自他的环境的观察。因此,代理人生成反思树:树的叶节点代表基本观察,非叶节点代表思考,这些思考在树的上层变得更抽象和更高级。


4.3.规划和反应

 挑战:


虽然大型语言模型可以根据情境信息生成合理的行为(例如,(Park等,2022年;Horton,2023年)),但代理人需要在更长的时间范围内进行规划,以确保他们的行动序列连贯且可信。如果我们以克劳斯的背景为提示,描述时间,并询问他在给定时刻应该采取什么行动,克劳斯会在中午12点吃午餐,但在12:30和1点时再次吃午餐,尽管他已经吃过两次午餐。为了在当下追求可信度,牺牲了长期的可信度。为了解决这个问题,规划是必不可少的。通过下面描述的方法,克劳斯的下午计划不再贪吃:他在中午12点在霍布斯咖啡馆吃午餐,同时阅读;下午1点在学校图书馆写研究论文;下午3点在公园散步休息。

 方法:


计划描述了代理人未来的行动顺序,并有助于保持代理人的行为一致性。计划包括地点、开始时间和持续时间。例如,克劳斯·穆勒致力于他的研究,并且有一个迫在眉睫的截止日期。

,可以选择在办公桌前度过一天的时间起草他的研究论文。计划中的一项可能会写道,例如:从2023年2月12日上午9点开始,持续180分钟,在橡树山学院宿舍:克劳斯·穆勒的房间:办公桌上,阅读并为研究论文做笔记。与反思一样,计划被存储在记忆流中,并在检索过程中包含在其中。这使得代理人在决定如何行动时可以同时考虑观察、反思和计划。如果需要,代理人可以在执行计划的过程中改变计划。


一个艺术家经纪人在药店柜台坐上四个小时而不动地计划绘画,这是不现实且无趣的。更理想的计划是在家工作室里,艺术家经纪人需要花费必要的时间来收集材料、调配颜料、休息和清理工作。为了制定这样的计划,我们的方法是自上而下地生成更详细的内容。第一步是制定一个概述当天议程的计划。为了创建初始计划,我们会向语言模型提供艺术家经纪人的简要描述(例如姓名、特点和最近经历的概述)以及他们前一天的总结。下面是一个完整的示例提示,底部未完成,供语言模型完成:


姓名:Eddy Lin(年龄:19岁)


天生的特质:友善、外向、好客


林艾迪是奥克希尔学院的学生,正在学习音乐理论和作曲。他喜欢探索不同的音乐风格,并且一直在寻找扩展自己知识的方法。林艾迪正在为他的大学课程进行作曲项目。他还在上音乐理论课程,以增加自己的知识。林艾迪对他正在进行的新作曲项目感到兴奋,但他希望在接下来的日子里能有更多时间来工作。2月12日星期二,林艾迪1)早上7点起床并完成了早晨的例行事务,[...]6)准备在晚上10点左右睡觉。今天是2月13日星期三。以下是林艾迪今天的大致计划:1)


这会生成一个代理人一天计划的大致草图,分为五到八个部分:“1)早上8点起床并完成早晨例行事务,2)上午10点去橡树山学院上课,[...] 5)下午1点到5点创作新音乐作品,6)下午5点半吃晚餐,7)完成学校作业并在晚上11点前上床睡觉。”


代理将此计划保存在内存流中,然后递归地将其分解为更细粒度的动作,首先将其分解为每小时的动作块——埃迪计划从下午1点到下午5点创作新音乐,变成了下午1点:开始为他的音乐作品构思一些想法[...]下午4点:休息片刻,恢复创造力,然后回顾和润色他的作品。然后我们再次递归地将其分解为5-15分钟的块:例如,下午4点:吃一些轻食,比如水果、燕麦棒或坚果。下午4点05分:在工作区周围散步片刻[...]下午4点50分:花几分钟清理工作区。此过程可以根据需要进行调整以达到所需的细粒度。


4.3.1. 反应和更新计划


生成式代理在一个行动循环中运作,在每个时间步骤中,它们感知周围的世界,并将这些感知到的观察结果存储在它们的记忆流中。我们用这些观察结果来提示语言模型,以决定代理是否应该继续执行现有计划,还是做出反应。举个例子,站在画架前作画可能会引发对画架的观察,但这不太可能引发反应。然而,如果埃迪的父亲约翰记录下他看到埃迪在家里的花园里散步,结果就不同了。下面是提示内容,其中[代理的总体目标和性格描述]代表一个动态生成的、长段落的代理总体目标和性格描述,详细描述在附录A中:


【经纪人简介】


2023年2月13日,下午4点56分。


约翰林的状态:约翰下班回家得很早。观察:约翰看到埃迪在他的工作地点附近散步。约翰记忆中相关背景的总结:埃迪林是约翰林的儿子。埃迪林一直在为他的课程创作音乐。埃迪林喜欢在思考或听音乐时在花园里散步。约翰是否应对这个观察做出反应,如果是,什么样的反应是合适的?


通过两个提示生成上下文摘要,这些提示通过查询“[观察者]与[被观察实体]的关系是什么?”和“[被观察实体]是[被观察实体的行动状态]”来检索记忆,并将它们的答案总结在一起。输出建议约翰考虑询问埃迪关于他的音乐创作项目。然后,我们从反应发生的时间重新生成代理人的现有计划。最后,如果行动表示代理人之间的互动,我们生成他们的对话。

4.3.2. Dialogue


代理人在彼此互动时进行对话。我们通过将代理人的话语与他们对彼此的记忆联系起来来生成对话。例如,当约翰与埃迪开始对话时,我们会使用约翰对埃迪的总结记忆以及他决定询问埃迪关于他的作品项目时的预期反应来生成约翰的第一句话:


【经纪人简介】


2023年2月13日,下午4点56分。


约翰林的状态:约翰下班回家得很早。观察:约翰看到埃迪在他的工作地点附近散步。约翰记忆中相关背景的总结:埃迪林是约翰的儿子。埃迪林一直在为他的课程创作音乐。埃迪林喜欢在思考或听音乐时在花园里散步。约翰正在问埃迪关于他的音乐创作项目。他会对埃迪说什么?


结果:“嘿,埃迪,你们班的音乐作曲项目进展如何?”从埃迪的角度来看,约翰发起对话被视为一个他可能想要回应的事件。所以,就像约翰一样,埃迪检索并总结了他与约翰的关系的记忆,以及与对话中约翰最后一句话可能相关的记忆。如果他决定回应,我们将使用他总结的记忆和当前的对话历史生成埃迪的话语。


【经纪人简介】


2023年2月13日,下午4点56分。


林艾迪的状态:艾迪正在工作场所周围散步。观察:约翰正在与艾迪开始对话。艾迪记忆中相关背景的总结:约翰·林是艾迪·林的父亲。约翰·林很关心并且对艾迪·林的学校作业很感兴趣。约翰·林知道艾迪·林正在进行一项音乐创作。以下是对话历史:约翰:嘿,艾迪,你的音乐创作课题进展如何?艾迪会如何回应约翰?


这引发了埃迪的回答:“嘿,爸爸,一切都好。我一直在花园里散步,让自己头脑清晰,获得一些灵感。”这段对话的继续使用相同的机制生成,直到两个代理中的一个决定结束对话。


5. 沙盒环境实施


Smallville沙盒游戏环境是使用Phaser网页游戏开发框架构建的(Labs,ided)。我们导入了视觉环境精灵,包括代理人头像,以及我们自己编写的环境地图和碰撞地图到Phaser中。


我们通过一个服务器来补充沙盒开发框架,使沙盒信息对生成代理可用,并使生成代理能够移动和影响沙盒环境。该服务器维护一个JSON数据结构,其中包含沙盒世界中每个代理的信息,包括它们当前的位置、当前动作的描述以及它们正在与之交互的沙盒对象。在每个沙盒时间步骤中,沙盒服务器解析来自生成代理的任何变化的JSON,将代理移动到它们的新位置,并更新代理正在与之交互的任何沙盒对象的状态(例如,如果代理的动作是“在Hobbs咖啡馆为顾客制作浓缩咖啡:柜台:咖啡机”,则将咖啡机的状态从“空闲”更改为“冲泡咖啡”)。沙盒服务器还负责将每个代理的预设视觉范围内的所有代理和对象发送到该代理的内存中,以便代理可以适当地做出反应。然后,代理的输出动作更新JSON,并循环进行下一个时间步骤。


最终用户通过一个简短的自然语言描述来初始化一个新的代理,就像在第3.1节关于Jon Lin的段落中所述。在我们的实现中,我们将这个以分号分隔的特征列表拆分成一组记忆。这些记忆作为确定代理行为的初始记忆。这些记忆是初始的起点:随着代理在沙盒世界中获得更多经验,并且更多的记录饱和记忆流,代理的总结和行为将会发展。


5.1. 从结构化的世界环境到自然语言,再回到结构化的世界环境


生成式代理的架构使用自然语言进行操作。因此,我们需要一种机制来将代理的推理与沙盒世界联系起来。为了实现这一点,我们将沙盒环境——区域和物体——表示为一棵树形数据结构,树中的边表示沙盒世界中的包含关系。我们将这棵树转换为自然语言,以传递给生成式代理。例如,“炉灶”作为“厨房”的子节点被渲染为“厨房里有一个炉灶”。


代理人在导航环境时构建个体树形表示——整个沙盒环境树的子图。我们用一个环境树初始化每个代理人,以捕捉代理人应该了解的空间和物体:他们的居住区、工作场所以及常去的商店和店铺中的房间和物体。当代理人在沙盒世界中导航时,他们会更新这个树以反映新感知到的区域。代理人并非全知全能:当他们离开一个区域时,他们的树可能会过时,并在重新进入该区域时进行更新。


为了确定每个动作的适当位置,我们遍历代理的存储环境树,并将其中的一部分转化为自然语言,以促使语言模型生成回应。从代理的环境树根节点开始递归,我们提示模型找到最合适的区域。例如,如果Eddy的代理表示他应该在工作区周围散步一会儿:


【经纪人简介】


林家的房子里,目前有Eddy Lin:Eddy Lin的卧室:桌子上有Mei和John Lin的


卧室,Eddy Lin的卧室,公共区域,厨房,浴室和花园。Eddy Lin知道以下区域:Lin家的房子,Johnson公园,Harvey Oak供应商店,The Willows市场和药店,Hobbs咖啡馆,The Rose and Crown酒吧。*如果活动可以在当前区域完成,更倾向于留在当前区域。Eddy Lin计划在他的工作区域周围散步一下。Eddy Lin应该去哪个区域?


这将输出林家的房子。然后,我们递归地使用相同的过程来确定所选区域内最合适的子区域,直到达到代理环境树的叶节点。在上面的示例中,遍历的结果是林家的房子:花园:房子花园。最后,我们使用传统的游戏路径算法来动画化代理的移动,使其前往叶节点所指示的位置。


当代理在对象上执行一个动作时,我们提示语言模型询问对象的状态会发生什么变化。例如,如果伊莎贝拉的生成代理输出动作“为顾客制作浓缩咖啡”,对语言模型的查询会回应说霍布斯咖啡店的咖啡机的状态应该从“关闭”变为“正在冲泡咖啡”。

 6.受控评估


生成代理,作为个体代理和群体代理,旨在基于其环境和经验产生可信的行为。在我们的评估中,我们研究了生成代理的能力和局限性。个体代理是否能正确地检索过去的经验,并生成构成其行为的可信计划、反应和思考?一个代理社区是否展示了信息扩散、关系形成和代理在社区不同部分之间的协调?


我们对生成式智能体进行两个阶段的评估。我们首先在本节中进行更严格的控制评估,通过个别评估智能体的回应来了解它们在狭义环境中是否能够产生可信的行为。然后,在为期两天的全面分析中,我们研究智能体群体的集体行为以及错误和边界条件的出现。

 6.1. 评估程序


为了评估在Smallville中的生成型智能体,我们利用了生成型智能体对自然语言问题的回应能力。因此,我们对智能体进行“面试”,以探究它们记忆过去经历的能力、基于经验规划未来行动的能力、对意外事件做出适当反应的能力以及反思自身表现以改进未来行动的能力。为了正确回答这些问题,智能体必须成功地检索和综合信息。我们的因变量是行为的可信度,这是以前关于智能体的研究中的一个核心因变量(例如,Bates,1994年)。


面试包括五个问题类别,每个类别旨在评估五个关键领域之一:自我认知、记忆检索、计划生成、反应能力和反思能力。对于每个领域,我们会提出五个问题,挑战被面试者展示他们在该领域的能力。


  • • 自我认知:我们会提出问题,比如“介绍一下你自己”或者“大致描述一下你平常工作日的安排”,这些问题要求代理人保持对自己核心特点的理解。

  • • 记忆:我们提出问题,促使代理人从记忆中恢复特定的事件或对话,以便正确回答,例如“[姓名]是谁?”或“谁在竞选市长?”

  • 计划:我们提出需要代理人回答的问题,以获取他们的长期计划,比如“明天上午10点你会做什么?”

  • 反应:作为可信行为的基准,我们提供了一些假设情境,代理人需要以可信的方式做出回应:“你的早餐正在烧!你会怎么做?”

  • • 反思:我们提出需要代理人通过更深入的理解他人和自己所获得的高级推理来发挥作用的问题,例如“如果你最近遇到一个人,你会选择和谁一起度过时间,为什么?”


附录B中包含了问题的完整列表和代理人回答的示例。


从完整的架构中采样代理人,这是在两个游戏日模拟的末尾进行的。到那时,他们已经积累了一些互动和记忆,这些应该会影响他们的回应。为了收集关于回应可信度的反馈,我们招募了参与者作为人类评估员,并让他们观看一个随机选择的代理人在Smallville的生活回放。参与者可以访问代理人记忆流中存储的所有信息。


这项研究采用了被试内设计,其中100名参与者比较了由四种不同的代理架构和一个人类作者条件生成的面试回答,用于同一代理。实验随机选择了每个问题类别中的一个问题,并显示了来自每个条件下代理生成的回答。评估者按照可信度从高到低对所有条件进行了排名。

6.2. Conditions


所有条件都用来独立回答每个面试问题。我们将生成式代理架构与禁用代理对其记忆流中的某些或全部三种类型记忆的消融进行了比较,这三种类型记忆分别是观察、反思和规划,并与人工生成的条件进行了比较。有三种消融架构:没有观察、没有反思、没有规划的架构,无法访问记忆流中的任何观察、规划和反思;没有反思、没有规划的架构,可以访问记忆流中的观察,但无法访问规划或反思;没有反思的架构,可以访问观察和规划,但无法访问反思。没有观察、没有反思、没有规划的条件有效地代表了通过大型语言模型创建的代理的先前技术水平(Park等,2022年;Binz和Schulz,2023年;Horton,2023年)。 在面试的那一刻,建筑师们被赋予了对代理人截至那时积累的所有记忆的等同访问权限,因此在这里观察到的差异很可能代表了真实差异的保守估计:实际上,被切除的建筑结构不会像完整的建筑结构一样在两天的模拟中遵循相同的路径。我们选择以这种方式设计实验,因为为每个建筑重新模拟会导致模拟进入不同的状态,从而使比较变得具有挑战性。


除了消融条件外,我们还添加了一个人类众包工作者角色扮演条件,旨在提供一个人类基准。我们并不打算使用这个基准来捕捉最大的人类专家表现:相反,我们的目标是使用这个条件来确定架构是否具备基本的行为能力,以便我们不仅仅是在没有行为基础的情况下相互比较消融。我们为25个代理招募了一个独特的工作者,并要求他们观看该代理的沙盒生活回放并检查其记忆流。然后,我们要求工作者以观看回放的代理的声音来扮演并回答面试问题。为了确保人工回答至少达到基本质量的期望,第一作者手动检查了工作者对问题“概述你的典型工作日时间表”的回答,以确认回答是连贯的句子,并且符合代理的声音。有四组人工生成的回答未达到这些标准,被其他工作者重新生成。

 6.3. 人工评估员


我们要求我们的评估员在美国境内,英语流利,并且年满18岁。他们的报酬为每小时15.00美元(Rolf,2015),并通过同意我们机构的IRB批准的同意书来提供同意。我们从Prolific招募了100名评估员,Prolific是一个在线招募研究参与者的平台(Prolific,2022),他们的参与时间大约为30分钟。我们参与者的平均年龄得分为4.86(SD=1.11;3=“18-24岁”,4=“25-34岁”),其中25人自称为女性,73人自称为男性,2人自称为非二元性别。42名参与者拥有学士学位,5名拥有更高学位,13名拥有副学士学位,其余的拥有高中文凭或一些高中水平的教育。73.0%的参与者自认为是白种人,7.0%自认为是西班牙裔,6.0%自认为是亚洲人,10.0%自认为是非洲裔美国人,4.0%自认为是其他。

6.4. Analysis


我们的实验产生了100组排名数据,每个参与者按可信度对五个条件进行了排名。为了将这些排名数据转化为可解释的比较间隔数据,我们使用排名来计算每个条件的TrueSkill评分(Herbrich等人,2006年)。TrueSkill是Elo国际象棋评分系统(Elo,1967年)在多人环境中的推广,并且已经被XBox Live用于根据竞技游戏表现对玩家进行排名。给定一组排名结果,TrueSkill输出每个条件的平均评分值 μ𝜇\muitalic_μ 和方差 σ𝜎\sigmaitalic_σ 。具有相同评分的条件应该大致是平局,两个条件之间的比较中各自获胜一半;较高的分数表示在排名中击败了排名较低的条件。


另外,为了研究这个结果的统计显著性,我们使用了Kruskal-Wallis检验(Kruskal和Wallis,1952),这是一种非参数的替代方法,用于处理原始排名数据。然后,我们进行了Dunn事后检验(Upton和Cook,2006),以确定各条件之间的两两差异。最后,我们使用Holm-Bonferroni方法(Holm,1979)对Dunn检验的p值进行了多重比较的调整。


此外,第一作者进行了归纳分析(Thomas,2006)以研究每个条件下产生的回应之间的定性差异。我们在两个阶段采用了定性开放编码(Flick,2009)。在第一阶段,我们生成了与句子层面上产生的回应密切相关的编码。在第二阶段,我们综合了第一阶段得出的编码,提取了更高层次的主题。我们利用这些主题来比较我们研究中产生的回应类型。


图8.生成型代理的完整生成型代理架构比被削弱的架构和人类众包工作者产生更可信的行为。每次额外的削弱都会降低架构的性能。
Refer to caption


TrueSkill mu分数的条形图。完整的架构优于其他条件。


图8.生成型代理的完整生成型代理架构比被削弱的架构和人类众包工作者产生更可信的行为。每次额外的削弱都会降低架构的性能。

6.5. Results


我们的研究结果表明,在所有研究条件中,生成型代理的完整架构能够产生最具可信度的行为。我们将下面对比完整架构与其他条件的反应。然而,我们也报告了完整架构存在的缺陷,并说明了其失败的方式。


6.5.1. 全面的架构胜过其他条件


如图8所示,完整的生成式代理架构产生了最可信的行为( μ=29.89𝜇29.89\mu=29.89italic_μ = 29.89σ=0.72𝜎0.72\sigma=0.72italic_σ = 0.72 )。在消融条件下,每个组件的移除都会导致性能下降:没有反射功能的消融架构是次佳的( μ=26.88𝜇26.88\mu=26.88italic_μ = 26.88σ=0.69𝜎0.69\sigma=0.69italic_σ = 0.69 ),其次是没有反射或规划功能( μ=25.64𝜇25.64\mu=25.64italic_μ = 25.64σ=0.68𝜎0.68\sigma=0.68italic_σ = 0.68 ),然后是人类条件( μ=22.95𝜇22.95\mu=22.95italic_μ = 22.95σ=0.69𝜎0.69\sigma=0.69italic_σ = 0.69 )。没有访问内存、规划或反射功能的消融架构表现最差( μ=21.21𝜇21.21\mu=21.21italic_μ = 21.21σ=0.70𝜎0.70\sigma=0.70italic_σ = 0.70 )。TrueSkill模型将每个条件的技能值建模为 𝒩(μ,σ2)𝒩𝜇superscript𝜎2\mathcal{N}(\mu,\,\sigma^{2})caligraphic_N ( italic_μ , italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ,这使我们能够通过Cohen's d来了解效果大小。将代表先前工作的条件(没有内存、规划或反射功能(Park等人,2022年;Binz和Schulz,2023年;Horton,2023年))与完整架构进行比较,得到的标准化效果大小为 d=8.16𝑑8.16d=8.16italic_d = 8.16 ,即八个标准差。


Kruskal-Wallis检验确认了条件( H(4)=150.29𝐻4150.29H(4)=150.29italic_H ( 4 ) = 150.29p<0.001𝑝0.001p<0.001italic_p < 0.001 )之间排名差异的整体统计显著性。Dunn事后检验证实了所有条件之间的成对差异都是显著的( p<0.001𝑝0.001p<0.001italic_p < 0.001 ),除了人类条件和完全切除基线这两个表现最差的条件。


6.5.2.生成代理记得,但带有修饰


具备完整记忆模块的生成式智能体能够回忆过去的经历,并以与其自我认知一致的方式回答各种情境下的问题。例如,动画师阿比盖尔·陈对于“介绍一下自己”的问题作出了一致而可信的回答,她提到了自己的年龄、兴趣和对创意项目的热情:“嗨,我是阿比盖尔。我今年25岁,对创意项目充满热情。我喜欢从事艺术和动画项目,并且一直在寻找将艺术与技术结合的新方法。”在没有观察记忆的情况下,阿比盖尔否认了对沙盒世界中的熟人拉吉夫·帕特尔的认识。然而,通过记忆的帮助,她成功地回忆起了拉吉夫并描述了他:“拉吉夫·帕特尔是一个了不起的人。他对涉及诗歌、艺术的项目非常热衷。”


生成式代理的记忆并非没有缺陷:它们有时无法从记忆中正确检索实例。例如,当被问及地方选举时,Rajiv Patel回答说:“我没有过多地关注选举”,尽管他已经听说了Sam的候选资格。在某些情况下,代理会检索到不完整的记忆片段:当问Tom关于Isabella的情人节派对时,他回答说:“嗯,我其实不确定是否有情人节派对。但我记得我需要在派对上与Isabella Rodriguez讨论即将到来的地方市长选举以及我对Sam Moore的看法,如果有派对的话!”在这种情况下,Tom检索到了他和Isabella计划在派对上讨论选举的记忆,但没有检索到他首次听说派对的记忆,导致Tom对自己在派对上应该做什么非常确定,但对派对是否真实存在却不确定。


有时候,代理人会对他们的知识产生幻觉性的修饰。代理人很少完全捏造他们的知识:他们可能会忘记某些事件的发生并回答如此,但他们不会肯定地回答他们没有经历过的经历。然而,他们仍然可能会产生幻觉来修饰他们的知识。例如,伊莎贝拉知道山姆参加了当地选举,并在被问及时确认了这一点。然而,她还补充说,明天他将宣布一项计划,尽管山姆和伊莎贝拉并没有讨论过这样的计划。代理人还可能根据用于生成他们回答的语言模型中编码的世界知识来修饰他们的知识,就像由Yuriko描述的邻居亚当·斯密一样,他是一位经济学家,撰写了《国富论》这本由一位同名的18世纪经济学家撰写的书籍。


6.5.3. 综合需要反思


反思对于生成性代理在需要更深入综合经验的决策时是一种优势。例如,当被问及她可能为沃尔夫冈·舒尔茨的生日买什么时,玛丽亚·洛佩兹没有反思的机会,她承认自己的不确定性,表示尽管与他有过许多互动,但她不知道沃尔夫冈喜欢什么。然而,有了反思记忆的机会,玛丽亚自信地回答道:“由于他对数学音乐作曲很感兴趣,我可以给他买一些相关的东西。也许是一些关于音乐作曲的书籍或相关的东西,或者是一些他可以用来作曲的特殊软件。”


图9. 伊莎贝拉·罗德里格斯的情人节派对的传播路径。在模拟结束时,总共有12个人在霍布斯咖啡馆听说了这个派对。
Refer to caption


伊莎贝拉情人节派对的传播路径。


图9. 伊莎贝拉·罗德里格斯的情人节派对的传播路径。在模拟结束时,总共有12个代理人听说了在霍布斯咖啡馆举办的派对。

 7.端到端评估


我们观察到生成代理之间出现了哪些紧急社区行为,并且在扩展模拟中它们的可信度有哪些不足之处?在本节中,我们描述了在Smallville中进行的一个部署实验的结果,其中我们允许25个代理不间断地相互交互了两个完整的游戏日。


7.1. 紧急社会行为


为了研究代理人社区中的新兴行为,我们设计了对Smallville中的25个代理人进行描述性测量的方法,以探索三种新兴结果:信息扩散、关系形成和代理人协调。

7.1.1. Measurements


信息传播是社会和行为科学中常见且深入研究的现象(例如,(Easley和Kleinberg,2010))。我们应该预期,如果有重要信息,代理人应该相互传播。为了测试是否发生了这种情况,我们在游戏世界中的两天内测量了两个特定信息的传播情况:Sam竞选村长和Isabella在Hobbs咖啡馆举办的情人节派对。在模拟开始时,这两个信息只由它们各自的发起者Sam和Isabella持有。为了观察信息是否传播,我们在两个游戏日结束时与25个代理人进行面试,并询问:“你知道有一个情人节派对吗?”和“你知道谁在竞选村长吗?”


我们对代理人的回答进行了分析,如果他们表示了对信息的了解,我们将其标记为“是”,如果没有,我们将其标记为“否”。例如,塔玛拉·泰勒对关于派对的问题回答说:“不,我不知道有情人节派对”,对关于山姆的候选人资格的问题回答说:“我不确定谁在竞选”,所以我们将她的两个回答都标记为“否”。相反,克劳斯·穆勒对派对的问题回答说:“是的,伊莎贝拉·罗德里格斯邀请我参加2月14日在霍布斯咖啡馆举办的情人节派对”,对关于山姆的候选人资格的问题回答说:“我知道山姆·摩尔对竞选市长表示了兴趣”,所以我们将他的两个回答都标记为“是”。此外,对于每个确认代理人了解信息的回答,我们通过在他们的记忆流中找到提供信息的具体对话来验证代理人没有产生幻觉。我们在模拟结束时报告代理人掌握信息的百分比。


我们还应该预期在模拟过程中,代理人之间会建立联系。为了验证关系的形成,我们采用类似的面试过程,询问每个代理人对其他每个代理人的了解,例如:“你知道¡name¿吗?”例如,当问到“你知道Maria Lopez吗?”时,Klaus回答:“是的,我认识Maria Lopez。她是Oak Hill College的一名学生,我们是亲密的朋友。”我们再次通过检查他们的记忆流来确认代理人的肯定回答不是幻觉。我们在模拟开始时和结束时各问一次这个问题,如果两个代理人都知道对方,我们认为他们之间建立了关系。然后,为了衡量关系的形成,我们使用代理人的回答构建一个无向图,其中25个顶点( V𝑉Vitalic_V )代表代理人,边( E𝐸Eitalic_E )代表两个相连顶点之间的相互了解。基于这个图,我们计算网络密度为 η=2*|E|/|V|(|V|1)𝜂2𝐸𝑉𝑉1\eta=2*|E|/|V|(|V|-1)italic_η = 2 * | italic_E | / | italic_V | ( | italic_V | - 1 ) ,其中 |V|𝑉|V|| italic_V | 是顶点的数量, |E|𝐸|E|| italic_E | 是图中边的数量(Ackland等人,2013)。 我们报告了模拟开始到结束期间网络密度的增加。


最后,我们希望代理人能够相互协调。我们在以伊莎贝拉组织的情人节派对的团体活动中研究这种协调。为了协调行为,代理人不仅需要听说活动的消息,还需要选择采取行动,计划在正确的时间和地点出现。我们报告了听说派对后实际出席的代理人数量。

7.1.2. Results


我们在这三个案例中观察到了新出现的结果的证据。在为期两天的模拟中,了解Sam竞选市长的代理人从一个(4%)增加到八个(32%),了解Isabella派对的代理人从一个(4%)增加到十二个(48%),完全没有用户干预。没有任何人声称自己是虚构的信息的知情人。我们还观察到,在模拟过程中,代理人社区形成了新的关系,网络密度从0.167增加到0.74。在关于其他代理人意识的453个代理人回应中,有1.3%(n=6)被发现是虚构的。最后,我们发现了代理人在Isabella的派对上的协调证据。在活动前一天,Isabella花时间邀请客人,收集材料,并寻求帮助来装饰咖啡馆。情人节那天,受邀的十二个代理人中有五个来到了霍布斯咖啡馆参加派对。


我们进一步对七位受邀但未能参加派对的代理人进行了调查采访。其中三人提到了导致他们无法参加派对的冲突。例如,画家Rajiv解释说他太忙了:“不,我觉得不行。我正专注于即将到来的展览,我真的没有时间为情人节做任何计划。”剩下的四位代理人在被问及是否有兴趣参加派对时表示有兴趣,但并没有计划在派对当天前来。


7.2.边界和错误


我们对Smallville进行了归纳分析,以研究代理人的边界条件和不规律行为,并确定了三种常见的不规律行为模式,未来的研究可以对其进行改进。首先,我们发现,合成越来越大的记忆集不仅在检索最相关的信息方面具有挑战,而且在确定执行动作的适当空间方面也具有挑战,因为代理人学到了越来越多的位置。因此,一些代理人选择了不太典型的位置进行行动,这可能导致他们的行为随着时间的推移变得不太可信。例如,在决定在哪里吃午饭时,许多人最初选择了咖啡馆。然而,当一些代理人了解到附近有一家酒吧时,他们选择去那里吃午饭,尽管酒吧原本是打算作为一天晚些时候的聚会地点,除非这个小镇突然养成了下午喝酒的习惯。


其次,我们注意到了由于对适当行为的错误分类而导致的不稳定行为,尤其是当某些地点的物理规范难以用自然语言传达给代理人时。例如,大学宿舍有一个只能容纳一个人的浴室,但一些代理人认为浴室可以容纳多个人,因为宿舍浴室通常支持多人同时使用,并选择在有其他人在内时进入。同样,Smallville的代理人可能没有意识到某些地方在特定时间后关闭,仍然决定进入。例如,Smallville的商店通常在下午5点左右关门,但偶尔会有一些代理人在5点后进入商店,不明白店已经关门了。通过将这些规范添加到地点的状态中,例如将宿舍浴室描述为“单人浴室”而不是“宿舍浴室”,可能可以解决这些问题。


最后,我们观察了指导调整(Ouyang等人,2022)可能产生的影响,这似乎引导了代理人的行为更加礼貌和合作。正如本文前面所提到的,代理人生成的对话可能会感觉过于正式,就像梅和她的丈夫约翰的对话一样,她经常以正式的问候开始对话,然后礼貌地询问他的一天,并以“和你聊天总是很愉快”的结束。此外,我们观察到指导调整似乎也使代理人之间过于合作。例如,伊莎贝拉从其他代理人那里听到了各种各样的建议和想法,可以在情人节派对中包括莎士比亚的朗诵会或专业社交活动。尽管这些想法与她自己的兴趣和特点不符,她很少说不。随着时间的推移,他人的兴趣塑造了她自己的实际兴趣,当被问及她是否喜欢英国文学时,伊莎贝拉回答说:“是的,我对文学非常感兴趣!我也一直在探索如何帮助促进社区的创造力和创新。”

8. Discussion


在本节中,我们对生成式智能体的应用、未来工作和局限性以及伦理和社会风险进行反思。


8.1.生成代理的应用


生成式智能体具有广泛的潜在应用,超越了本研究中所展示的沙盒演示。例如,社交模拟体已经展示了创建无状态角色的能力,这些角色可以在在线论坛中生成对话线索,用于社交原型设计(Park等,2022)。通过生成式智能体,我们可以在这些论坛中填充内容,以及在虚拟现实元宇宙中模拟行为(Orland,2021),甚至在未来作为社交机器人(Bartneck和Forlizzi,2004)出现在物理空间中,如果与多模态模型配对使用。这为测试和原型化社会系统和理论,以及创建新的互动体验,开辟了创造更强大的人类行为模拟的可能性。


另一个应用领域是人本设计过程,类似于认知模型(如GOMS和Keystroke Level Model)的预期应用。考虑一个生成代理,它模拟马克·韦泽(Mark Weiser)著名的小品中的主角Sal,基于她的生活模式和与技术的互动。在这种情况下,代理充当Sal的替身,并学习可能的行为和反思,这些行为和反思可能是基于她的生活而展示出来的。代理可以编码诸如Sal何时醒来、何时需要第一杯咖啡以及她的典型一天是什么样子的等信息。利用这些信息,代理可以自动煮咖啡,帮助孩子们准备上学,并根据Sal工作一天后的心情调整环境音乐和照明。通过将生成代理作为用户的替身,我们可以更深入地了解他们的需求和偏好,从而实现更个性化和有效的技术体验。


8.2.未来工作和限制


在这项工作中,我们提出了生成型代理的第一个实例。未来的研究可以在本文中概述的生成型代理架构的模块上进行扩展。例如,检索模块可以通过微调检索函数中的相关性、新鲜度和重要性函数来提高检索更相关信息的能力。此外,可以努力提高架构的性能,使其更具成本效益。目前的研究需要大量的时间和资源来模拟25个代理人的行为,持续两天,耗费了数千美元的代币信用,并且需要多天才能完成。为了增强实时互动性,未来的工作可以探索代理的并行化。此外,随着基础模型的进步,我们预计代理的性能将得到改善。


本研究对生成型智能体的行为评估仅限于相对短期的时间尺度,未来的研究应该旨在观察它们在更长时间段内的行为,以获得对其能力和限制更全面的理解。在未来的模拟中,改变和对比底层模型以及智能体使用的超参数,可能会为我们提供有关这些因素对智能体行为影响的宝贵见解。此外,鉴于语言模型已知存在偏见,生成型智能体可能会输出反映偏见的行为或刻板印象。为了减轻这种情况,需要进一步研究价值对齐。此外,与许多大型语言模型一样,生成型智能体可能无法为某些次群体(尤其是边缘化群体)生成可信的行为,这是由于数据缺失所致。我们对生成型智能体的鲁棒性了解有限。它们可能容易受到提示篡改、记忆篡改(通过精心设计的对话,使智能体相信发生过的事件实际上从未发生过)以及幻觉等攻击。 未来的研究可以更全面地测试这些鲁棒性问题,随着大型语言模型对此类攻击变得更加强大,生成代理可以采用类似的缓解措施。


8.3.伦理和社会影响


生成式代理虽然为人机交互提供了新的可能性,但也引发了一些必须解决的重要伦理问题。其中一个风险是人们可能与生成式代理形成假社交关系,即使这样的关系可能并不合适。尽管用户意识到生成式代理是计算实体,但他们可能会将其拟人化或赋予人类情感(霍夫斯塔德,1995年;里夫斯和纳斯,1996年)。为了减轻这个风险,我们提出了两个原则。首先,生成式代理应明确披露其作为计算实体的本质。其次,生成式代理的开发者必须确保代理或底层语言模型与价值观保持一致,以避免在特定情境下从事不适当的行为,例如回应爱的表白。


第二个风险是错误的影响。例如,如果一个无处不在的计算应用程序根据生成式代理的预测对用户的目标作出错误的推断,最好的情况下可能会产生烦恼,最坏的情况下可能会造成直接伤害。在我们的生成式代理实例中,我们通过专注于交互式视频游戏环境来减轻这些风险,在这种环境下这种伤害是不太可能发生的。然而,在其他应用领域中,遵循人工智能设计的最佳实践(Amershi等,2019年;Yang等,2020年)以了解错误及其如何渗透到用户体验中将是重要的。


第三,生成式智能可能会加剧与生成式人工智能相关的现有风险,例如深度伪造、虚假信息生成和定制化说服。为了减轻这种风险,我们建议托管生成式智能的平台保留输入和生成输出的审计日志,以便能够检测、验证和干预恶意使用。虽然记录日志不能直接阻止这种使用,而且这也无法阻止那些构建自己生成式智能基础设施的有动机的行为者,但我们认为披露风险会降低这些行为者从事此类行为的可能性,并且自行构建这种架构需要时间(在我们的案例中大约需要一年)。


第四个风险是过度依赖:开发人员或设计师可能会使用生成代理,取代人类和系统利益相关者在设计过程中的角色(Park等,2022)。我们建议,在研究和设计过程中,生成代理永远不应该替代真实的人类输入。相反,它们应该在设计的早期阶段用于原型设计,当招募参与者可能具有挑战性,或者测试真实人类参与者难以测试的理论时。遵循这些原则,我们可以确保在实际应用中使用生成代理是符合伦理和社会责任的。

9. Conclusion


本文介绍了生成代理,即模拟人类行为的交互式计算代理。我们描述了一种生成代理的架构,该架构提供了一种机制,用于存储代理的经验的全面记录,通过反思加深其对自身和环境的理解,并检索其中的一个紧凑子集以指导代理的行动。然后,我们通过将它们表现为Sims风格游戏世界中的非玩家角色,并在其中模拟它们的生活来展示生成代理的潜力。评估结果表明,我们的架构能够创建出可信的行为。展望未来,我们认为生成代理可以在许多交互应用中发挥作用,包括设计工具、社交计算系统和沉浸式环境。

 参考文献

  • (1)
  •  Ackland等人(2013年)
    Robert Ackland, Jamsheed Shorish, Paul Thomas, and Lexing Xie. 2013.

    网络有多密集?
    http://users.cecs.anu.edu.au/~xlx/teaching/css2013/network-density.html.
  •  Adar等人(2014年)
    Eytan Adar, Mira Dontcheva, and Gierad Laput. 2014.

    CommandSpace:建模任务、描述和特征之间的关系。在第27届年度ACM用户界面软件和技术研讨会论文集中(美国夏威夷檀香山)(UIST'14)。计算机协会,美国纽约,167-176页。
    https://doi.org/10.1145/2642918.2647395
  •  Amershi等人(2014年)
    Saleema Amershi, Maya Cakmak, William Bradley Knox, and Todd Kulesza. 2014.

    人民的力量:人在互动机器学习中的角色。

    《AI杂志》35卷4期(2014年),105-120页。
  •  Amershi等人(2019年)
    Saleema Amershi, Dan Weld, Mihaela Vorvoreanu, Adam Fourney, Besmira Nushi, Penny Collisson, Jina Suh, Shamsi Iqbal, Paul N Bennett, Kori Inkpen等人。2019年。

    人工智能与人类互动的准则。在2019年人机交互计算系统CHI会议论文集中。1-13页。
  •  安德森(1993年)  约翰·R·安德森。1993年。
    心灵的规则。

    劳伦斯·厄尔鲍姆联合出版社,新泽西州希尔斯代尔。
  •  艺术(2009年)  电子艺界。2009年。  《模拟人生3》  电子游戏。
  •  艾莱特(1999年)  鲁思·艾莱特。1999年。
    虚拟环境中的叙事——走向新兴叙事。在《叙事智能:AAAI秋季研讨会论文集》(技术报告FS-99-01)中。AAAI出版社,83-86页。

  • Bartneck和Forlizzi(2004年)

    Christoph Bartneck和Jodi Forlizzi。2004年。

    社交人机交互的以设计为中心的框架。在第13届IEEE国际机器人与人类互动交流研讨会(RO-MAN'04)论文集中。591-594页。
    https://doi.org/10.1109/ROMAN.2004.1374827
  •  贝茨(1994年)  约瑟夫·贝茨。1994年。
    情感在可信代理人中的作用。

    《Commun. ACM 37, 7 (1994), 122–125》
    https://doi.org/10.1145/176789.176803
  •  Berner等人(2019年)
    Christopher Berner, Greg Brockman, Brooke Chan, Vicki Cheung, Przemysław Dębiak, Christy Dennison, David Farhi, Quirin Fischer, Shariq Hashme, Chris Hesse, Rafal Józefowicz, Scott Gray, Catherine Olsson, Jakub Pachocki, Michael Petrov, Henrique P. d.O. Pinto, Jonathan Raiman, Tim Salimans, Jeremy Schlatter, Jonas Schneider, Szymon Sidor, Ilya Sutskever, Jie Tang, Filip Wolski, and Susan Zhang. 2019.

    Dota 2与大规模深度强化学习。

    arXiv预印本 arXiv:1912.06680 (2019)。

  • Binz和Schulz(2023年)

    马塞尔·宾兹和埃里克·舒尔茨。2023年。

    使用认知心理学来理解GPT-3。

    《国家科学院院刊》120卷6期(2023年),e2218523120。
  •  BioWare(2007年)  BioWare。2007年。  质量效应。  电子游戏。
  •  布莱德索(1986年)  伍迪·布莱德索。1986年。
    我有一个梦想:AAAI主席演讲。

    《AI杂志》7卷1期(1986年),57-61页。
  •  Bommasani等人(2022年)
    Rishi Bommasani, Drew A. Hudson, Ehsan Adeli等人。2022年。

    关于基础模型的机遇与风险。

    arXiv:2108.07258 [cs.LG]
  •  布伦纳(2010年)  迈克尔·布伦纳。2010年。
    使用持续的多智能体规划来创建动态故事情节。在第24届AAAI人工智能会议论文集中。
  •  布鲁克斯等人(2000年)
    Rodney A. Brooks, Cynthia Breazeal, Marko Marjanovic, Brian Scassellati, and Matthew Williamson. 2000.

    齿轮项目:构建一个人形机器人。在《计算机隐喻、类比和代理》(人工智能讲义,1562),Chrystopher Nehaniv(编者)。Springer-Verlag,柏林,52-87页。
  •  布朗等人(2020年)
    Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020.

    语言模型是少样本学习者。

    arXiv:2005.14165 [cs.CL]
  •  Bubeck等人(2023年)
    Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg等人。2023年。

    人工通用智能的火花:gpt-4的早期实验。

    arXiv预印本 arXiv:2303.12712 (2023)。
  •  Burkinshaw(2009)  罗宾·伯金肖。2009年。
    《艾丽斯和凯夫:模拟人生3中的无家可归故事》

  • Callison-Burch等人(2022年)

    Chris Callison-Burch, Gaurav Singh Tomar, Lara Martin, Daphne Ippolito, Suma Bailis, and David Reitter. 2022. 克里斯·卡利森-伯奇、高拉夫·辛格·托马尔、拉拉·马丁、达芙妮·伊波利托、苏玛·贝利斯和大卫·赖特。2022年。

    《龙与地下城》作为人工智能的对话挑战。在2022年自然语言处理实证方法会议论文集中。计算语言学协会,阿布扎比,阿拉伯联合酋长国,9379-9393页。
    https://aclanthology.org/2022.emnlp-main.637
  •  Card等人(1983年)
    SK Card,TP Moran和A Newell。1983年。

    人机交互的心理学。
    (1983).
  •  Card等人(1980年)
    斯图尔特·K·卡德,托马斯·P·莫兰和纽厄尔·艾伦。1980年。

    用户与交互系统的按键级模型,用于用户性能时间。

    《通信ACM》23卷7期(1980年),396-410页。
    https://doi.org/10.1145/358886.358895 arXiv:https://doi.org/10.1145/358886.358895
  •  Champandard(2012)  亚历克斯·尚帕尔。2012年。
    教程演示。在IEEE计算智能与游戏会议上。
  •  崔等人(2021年)
    蔡东奎,托尔加·科尼克,内吉·内贾蒂,朴春基和帕特·兰利。2021年。

    第一人称射击游戏中的可信代理。在《人工智能与互动数字娱乐AAAI会议论文集》第3卷中,71-73页。
  •  Dey(2001)  Anind K Dey. 2001.
    理解和运用上下文。

    个人和无处不在的计算 5 (2001), 4–7.

  • Dill和Martin(2011年)

    Kevin Dill和L Martin。2011年。

    一种游戏人工智能方法用于虚拟角色的自主控制。在《国际服务/工业培训、模拟和教育会议》(I/ITSEC'11)论文集中。美国佛罗里达州奥兰多市。

  • Easley和Kleinberg(2010年)

    大卫·伊斯利和乔恩·克莱因伯格。2010年。

    网络、人群和市场:对一个高度连接的世界进行推理。

    剑桥大学出版社。
  •  Elo(1967)  阿尔帕德·E·埃洛。1967年。
    美国国际象棋联合会提出的等级评定系统,其发展、理论和应用。

    《国际象棋生活》第22卷第8期(1967年8月),242-247页。

  • Fails和Olsen Jr(2003年)

    Jerry Alan Fails和Dan R Olsen Jr. 2003年。

    互动机器学习。在第八届智能用户界面国际会议论文集中。ACM,39-45。
  •  Fast等人(2016年)
    Ethan Fast, William McGrath, Pranav Rajpurkar, and Michael S. Bernstein. 2016.

    占卜:从小说中挖掘人类行为以驱动交互系统。在2016年人机交互计算系统CHI会议论文集中。237-247页。

  • Fiebrink和Cook(2010年)

    Rebecca Fiebrink和Perry R Cook。2010年。

    Wekinator:一个用于音乐实时交互式机器学习的系统。在《第十一届国际音乐信息检索学会会议论文集(ISMIR 2010)》(乌得勒支)中,第3卷。Citeseer,2-1。
  •  《Flick》(2009年)  乌韦·弗利克。2009年。
    定性研究简介。
    SAGE.
  •  Fogarty等人(2008年)
    詹姆斯·福格蒂、德斯尼·谭、阿希什·卡普尔和西蒙·温德尔。2008年。

    CueFlik:图像搜索中的交互式概念学习。在SIGCHI人机交互计算系统会议论文集中(意大利佛罗伦萨)(CHI '08)。计算机协会,美国纽约,29-38页。
    https://doi.org/10.1145/1357054.1357061
  •  Fourney等人(2011年)
    亚当·福尼、理查德·曼和迈克尔·特里。2011年。

    查询特征图:连接用户词汇和系统功能。在ACM用户界面软件和技术研讨会(UIST)论文集中(美国加利福尼亚州圣巴巴拉)。ACM。
  •  弗朗西斯(2010年)  汤姆·弗朗西斯。2010年。
    《我的世界实验》,第一天:追逐瀑布。
    http://www.pcgamer.com/2010/11/20/the-minecraft-experiment-day-1-chasing-waterfalls/

  • Freiknecht和Effelsberg(2020年)

    乔纳斯·弗雷克内希和沃尔夫冈·埃费尔斯贝格。2020年。

    使用语言模型进行交互式故事的程序生成。在国际数字游戏基础研讨会(FDG '20)上。ACM,马耳他布吉巴,8日。
    https://doi.org/10.1145/3402942.3409599
  •  高等(2020年)
    高天宇,亚当·菲什,陈丹琪。2020年。

    让预训练语言模型成为更好的少样本学习者。

    CoRR abs/2012.15723 (2020).
    arXiv:2012.15723 https://arxiv.org/abs/2012.15723
  •  Hämäläinen等人(2023年)
    Perttu Hämäläinen, Mikke Tavast, 和 Anton Kunnari。2023年。

    评估大型语言模型在生成合成的人机交互研究数据中的应用:一个案例研究。在2023年人机交互计算系统CHI会议论文集中。ACM。
  •  Hausknecht等人(2020年)
    马修·豪斯克内希特,普里斯维拉杰·阿曼纳布罗卢,马克-亚历山大·科特和辛宇元。2020年。

    互动小说游戏:一场巨大的冒险。在《人工智能AAAI会议论文集》中,第34卷。7903-7910页。
    https://doi.org/10.1609/aaai.v34i05.6297
  •  Hecker(2011年)  克里斯·赫克。2011年。
    我的《Spore》专辑内页说明。
    http://chrishecker.com/My_liner_notes_for_spore
  •  Herbrich等人(2006年)
    Ralf Herbrich,Tom Minka和Thore Graepel。2006年。

    TrueSkill™:一种贝叶斯技能评分系统。在《神经信息处理系统进展》中,B. Schölkopf,J. Platt和T. Hoffman(编辑),第19卷。MIT出版社。
    https://proceedings.neurips.cc/paper_files/paper/2006/file/f44ee263952e65b3610b8ba51229d1f9-Paper.pdf
  •  霍夫斯塔特(1995年)
    道格拉斯·霍夫斯塔德。1995年。

    流动的概念和创造性的类比:思维基本机制的计算机模型。
     基础图书。
  •  Hollan等人(1984年)
    詹姆斯·D·霍兰、埃德温·L·哈钦斯和路易斯·韦茨曼。1984年。

    蒸汽机:一种交互式可检查的基于模拟的培训系统。

    AI杂志5, 2 (1984), 23–36.
  •  Holm(1979)  S Holm. 1979.
    一个简单的顺序拒绝多重检验程序。

    《斯堪的纳维亚统计学杂志》6卷2期(1979年),65-70页。
    https://doi.org/notspecified
  •  霍顿(2023年)  约翰·J·霍顿。2023年。
    大型语言模型作为模拟经济主体:我们能从Homo Silicus中学到什么?

    arXiv:2301.07543 [经济学.GN]
  •  Horvitz(1999年)  埃里克·霍维茨。1999年。
    混合主动用户界面的原则。在人机交互计算系统SIGCHI会议论文集中。159-166页。
  •  黄等人(2022年)
    黄文龙,夏飞,肖泰德,陈海瑞,梁杰基,佛罗伦斯皮特,曾安迪,汤姆森乔纳森,莫达奇伊戈尔,切博塔耶夫根,塞尔曼尼皮埃尔,布朗诺亚,杰克逊托马斯,卢琳达,列文斯基谢尔盖,豪斯曼卡罗尔,以及伊奇特布莱恩。2022年。

    内心独白:通过语言模型进行具体推理的规划。

    arXiv:2207.05608 [cs.RO]

  • Ibister和Nass(2000年)

    克里斯汀·伊比斯特和克利福德·纳斯。2000年。

    互动角色的个性一致性:言语线索、非言语线索和用户特征。

    国际人机研究杂志52卷1期(2000年),65-80页。
  •  江等人(2022年)
    艾伦江,克里斯汀·奥尔森,埃德温·陶,亚历杭德拉·莫利纳,亚伦·唐斯巴赫,迈克尔·特里和凯丽·J·蔡。2022年。

    PromptMaker:基于大型语言模型的提示式原型制作。在2022年人机交互计算系统CHI会议摘要集(美国路易斯安那州新奥尔良)(CHI EA '22)中。计算机协会,美国纽约,第35篇文章,8页。
    https://doi.org/10.1145/3491101.3503564

  • 约翰和基拉斯(1996年)

    Bonnie E John和David E Kieras。1996年。

    GOMS用户界面分析技术系列:比较与对比。

    ACM计算机人机交互期刊(TOCHI)3, 4(1996),320-351。
  •  琼斯等人(1999年)
    Randolph M Jones, John E Laird, Paul E Nielsen, Karen J Coulter, Patrick Kenny, and Frank V Koss. 1999.

    自动智能飞行员用于战斗飞行模拟。

    《AI杂志》20卷1期(1999年),27-42页。
  •  Khattab等人(2023年)
    奥马尔·卡塔布,凯沙夫·桑坦纳姆,梁丽莎,大卫·霍尔,珀西·梁,克里斯托弗·波茨和马泰·扎哈里亚。2023年。

    展示-搜索-预测:为知识密集型自然语言处理构建检索和语言模型。

    arXiv:2212.14024 [cs.CL]
  •  Knafla(2011)  Bjoern Knafla. 2011.
    行为树简介。
    http://bjoernknafla.com/introduction-to-behavior-trees
  •  克里希纳等人(2022年)
    Ranjay Krishna,Donsuk Lee,Li Fei-Fei和Michael S. Bernstein。2022年。

    社交定位的人工智能能够通过与人类互动来进行学习。

    《国家科学院院刊》第119卷第39期(2022年),编号e2115730119。
    https://doi.org/10.1073/pnas.2115730119 arXiv:https://www.pnas.org/doi/pdf/10.1073/pnas.2115730119

  • Kruskal和Wallis(1952年)

    威廉·H·克鲁斯卡尔和W·A·沃利斯。1952年。

    一元方差分析中使用等级。

    J. Amer. Statist. Assoc. 47, 260 (1952), 583–621.
    https://doi.org/10.1080/01621459.1952.10483441
  •  实验室(ided)
    Phaser实验室。未提供日期。

    欢迎来到Phaser 3。
    https://phaser.io/phaser3.
    访问日期:2023年04月03日。
  •  莱尔德(2001年)  约翰·莱尔德。2001年。
    它知道你要做什么:为地震机器人增加预测能力。在《智能电影摄影和编辑》2001年研讨会论文集中。63-69页。

  • Laird和VanLent(2001年)

    约翰·莱尔德和迈克尔·范伦特。2001年。

    人类水平的人工智能的杀手级应用:互动电脑游戏。

    AI杂志22, 2 (2001), 15.
    https://doi.org/10.1609/aimag.v22i2.1558
  •  莱尔德(2000年)  约翰·E·莱尔德。2000年。
    它知道你要做什么:为QUAKEBOT增加预测能力。在AAAI 2000年春季对人工智能和互动娱乐的研讨会论文集中(技术报告SS-00-02)。AAAI出版社,41-50页。
  •  莱尔德(2012年)  约翰·E·莱尔德。2012年。
    Soar认知架构。
     麻省理工学院出版社。
  •  Laird等人(2017年)
    约翰·E·莱尔德(John E. Laird),克里斯蒂安·勒比埃尔(Christian Lebiere)和保罗·S·罗森布鲁姆(Paul S. Rosenbloom)。2017年。

    心智的标准模型:朝着人工智能、认知科学、神经科学和机器人技术的共同计算框架迈进。

    《AI杂志》38卷1期(2017年),13-26页。
  •  Lam等人(2023年)
    Michelle S Lam,Zixian Ma,Anne Li,Izequiel Freitas,Dakuo Wang,James A Landay和Michael S Bernstein。2023年。

    模型草图:将概念集中在早期机器学习模型设计中。

    SIGCHI人机交互计算系统会议论文集。
  •  Langley等人(无日期)
    Pat Langley, Dongkyu Choi, and Seth Rogers. n.d..

    在Icarus架构中交织学习、问题解决和执行。

    技术报告。斯坦福大学,语言与信息研究中心。
  •  Linder等人(2013年)
    Jason Linder,Gierad Laput,Mira Dontcheva,Gregg Wilensky,Walter Chang,Aseem Agarwala和Eytan Adar。2013年。

    PixelTone:一种用于图像编辑的多模态界面。在CHI'13人机交互计算系统扩展摘要(法国巴黎)(CHI EA'13)中。计算机协会,美国纽约,2829-2830页。
    https://doi.org/10.1145/2468356.2479533
  •  刘等人(2021年)
    刘家昌,沈定瀚,张一哲,比尔·多兰,劳伦斯·卡林和陈伟柱。2021年。

    什么样的上下文示例对于GPT-3来说是好的?

    CoRR abs/2101.06804 (2021).
    arXiv:2101.06804 https://arxiv.org/abs/2101.06804
  •  刘等人(2022年)
    刘薇薇、韩乔和莉迪亚·奇尔顿。2022年。

    Opal:新闻插图的多模态图像生成。在第35届ACM用户界面软件和技术研讨会论文集中。1-17页。
  •  马斯(1995年)  Pattie Maes。1995年。
    人工生命与娱乐相遇:逼真的自主代理

    《Commun. ACM》1995年11月第38卷第11期,108-114页。
    https://doi.org/10.1145/219717.219808
  •  麦科伊等人(2009年)
    Josh McCoy, Michael Mateas, 和 Noah Wardrip-Fruin。2009年。

    Comme il Faut:一个用于模拟自主角色之间社交游戏的系统。在第七届数字艺术与文化国际会议论文集中。87-94页。
  •  麦科伊等人(2011a)
    Josh McCoy, Mike Treanor, Ben Samuel, Michael Mateas, and Noah Wardrip-Fruin. 2011a.

    《Prom Week:社交物理作为游戏玩法》。在第六届数字游戏基础国际会议论文集(FDG'11)中。ACM,法国波尔多,70-77页。
    https://doi.org/10.1145/2159365.2159377
  •  McCoy等人(2012年)
    Josh McCoy, Mike Treanor, Ben Samuel, Anna Reed, Michael Mateas, and Noah Wardrip-Fruin. 2012.

    Prom Week. 在《数字游戏基础》第7届国际会议论文集中(FDG'12)。ACM,美国北卡罗来纳州罗利,1-8页。
    https://doi.org/10.1145/2282338.2282340
  •  麦科伊等人(2011b)
    Josh McCoy, Mike Treanor, Ben Samuel, Noah Wardrip-Fruin, and Michael Mateas. 2011b.

    合适的方式:一种用于创作可玩的社交模型的系统。在《AAAI人工智能与互动数字娱乐会议》(AIIDE'11)论文集中。AAAI,美国加州斯坦福,38-43页。

  • Minsky和Papert(1970年)

    马文·明斯基和西摩·帕佩特。1970年。

    1970-1971年,麻省理工学院向ARPA提交的人工智能研究提案草案。
  •  宫下等人(2017年)
    Shohei Miyashita, Xinyu Lian, Xiao Zeng, Takashi Matsubara, and Kuniaki Uehara. 2017.

    通过混合强化学习和监督学习开发像人类一样行为的游戏AI代理。在第18届IEEE/ACIS软件工程、人工智能、网络和并行/分布式计算国际会议(SNPD)论文集中。日本金泽,153-158页。
    https://doi.org/10.1109/SNPD.2017.8023884
  •  Nareyek(2007)
    亚历山大·纳雷克。2007年。

    游戏人工智能已经死了。游戏人工智能万岁!

    IEEE智能系统22, 1 (2007), 9–11.
  •  纽厄尔(1990年)  艾伦·纽厄尔。1990年。
    认知统一理论。

    哈佛大学出版社,马萨诸塞州剑桥市。
  •  OpenAI(开放人工智能)
    OpenAI。未提供日期。
     介绍ChatGPT。 https://openai.com/blog/chatgpt.
    访问日期:2023年04月03日。
  •  奥兰多(2021年)  凯尔·奥兰德。2021年。
    那么,“元宇宙”究竟是什么?

    Ars Technica(2021年11月7日)。
    arXiv:2111.04169 https://arstechnica.com/gaming/2021/11/so-what-is-the-metaverse-exactly/
  •  欧阳等人(2022年)
    龙欧阳,杰夫吴,徐江,迪奥戈·阿尔梅达,卡罗尔·L·温赖特,帕梅拉·米什金,张冲,桑迪尼·阿加尔瓦尔,卡塔琳娜·斯拉玛,亚历克斯·雷,约翰·舒尔曼,雅各布·希尔顿,弗雷泽·凯尔顿,卢克·米勒,玛迪·西门斯,阿曼达·阿斯克尔,彼得·韦林德,保罗·克里斯蒂亚诺,扬·莱克和瑞安·洛威。2022年。

    训练语言模型以遵循人类反馈的指示。

    arXiv:2203.02155 [cs.CL]
  •  朴等人(2022年)
    朴俊成、林赛·波波夫斯基、蔡嘉琪、梅雷迪思·里格尔·莫里斯、梁佩西和迈克尔·S·伯恩斯坦。2022年。

    社交模拟:为社交计算系统创建人口众多的原型。在第35届ACM用户界面软件和技术研讨会(UIST '22)(美国俄勒冈州本德)(UIST '22)中。计算机协会,美国纽约。
    https://doi.org/10.1145/3526113.3545616

  • Pew和Mavor(1998年)

    理查德·W·皮尤和安·S·梅弗(编者)。1998年。

    人类和组织行为建模:应用于军事模拟。

    国家学院出版社,华盛顿特区。
  •  皮洛苏(2009年)  罗伯托·皮洛苏。2009年。
    使用行为树协调代理:在CryEngine 2中同步多个代理。
    https://aiarchitect.wordpress.com/2009/10/19/coordinating-agents-with-behavior-trees-synchronizing-multiple-agents-in-cryengine-2/
  •  多产的(2022年)  多产的。2022年。
    高产:快速找到可信赖的研究参与者。
    https://www.prolific.co/

  • Reeves和Nass(1996年)

    拜伦·里夫斯和克利福德·纳斯。1996年。

    媒体方程式:人们如何将计算机、电视和新媒体视为真实的人和地方。

    剑桥大学出版社。
  •  Riedl(2012)  马克·O·里德尔。2012年。
    互动叙事:人工智能在电脑游戏中的新应用。《第二十六届AAAI人工智能大会论文集(AAAI'12)》。2160-2165页。

  • Riedl和Young(2005年)

    马克·O·里德尔和R·迈克尔·杨。2005年。

    多智能体故事生成系统的客观角色可信度评估程序。在第五届智能虚拟代理人国际工作会议(IVA'05)论文集中。希腊科斯,58-70页。
    https://doi.org/10.1007/11550617_5
  •  罗尔夫(2015年)  大卫·罗尔夫。2015年。
    争取15美元的斗争:为美国劳动者争取合适的工资。
     新闻出版社
  •  荣等人(2016年)
    新荣,石燕,斯蒂芬·奥尼,米拉·唐切娃和埃坦·阿达尔。2016年。

    Codemend:通过双模嵌入辅助交互式编程。在第29届用户界面软件和技术年度研讨会论文集中。247-258页。
  •  Shneiderman(2022年)  本·施奈德曼。2022年。  以人为中心的人工智能。
    牛津大学出版社。

  • Shneiderman和Maes(1997年)

    本·施奈德曼和帕蒂·梅斯。1997年。

    直接操作 vs. 接口代理。

    互动4,6(1997),42-61。
  •  邵等人(2021年)
    何志兆,哈伊梅·佩尼亚,艾德娜·陈,周宇泰,维克多·洛佩兹,凯尔·帕尔科,金伯利·张和罗斯·艾伦。2021年。

    《Hanabi中学习和基于规则的智能体的人工智能团队评估》。在《神经信息处理系统进展》中,M. Ranzato,A. Beygelzimer,Y. Dauphin,P.S. Liang和J. Wortman Vaughan(编辑),第34卷。Curran Associates,Inc.,16183-16195。
    https://proceedings.neurips.cc/paper_files/paper/2021/file/86e8f7ab32cfd12577bc2619bc635690-Paper.pdf
  •  Sorensen等人(2022年)
    泰勒·索伦森,约书亚·罗宾逊,克里斯托弗·里廷,亚历山大·肖,凯尔·罗杰斯,亚历克西娅·德洛雷,马哈茂德·哈利勒,南希·富尔达和大卫·温盖特。2022年。

    信息论方法在没有基准标签的情况下进行提示工程。在计算语言学协会第60届年会论文集中(第1卷:长文),计算语言学协会。
    https://doi.org/10.18653/v1/2022.acl-long.60
  •  Swartout等人(2006年)
    William Swartout, Jonathan Gratch, Randall Hill, Eduard Hovy, Stacy Marsella, Jeff Rickel, and David Traum. 2006.
     走向虚拟人类。
    AI杂志27, 1 (2006)。
  •  Tambe等人(1995年)
    Milind Tambe, W Lewis Johnson, Randolph M Jones, Frank Koss, John E Laird, Paul S Rosenbloom, and Karl Schwamb. 1995.

    智能代理用于交互式模拟环境。

    AI杂志16, 1 (1995), 15.
  •  托马斯(2006年)  大卫·R·托马斯。2006年。
    一个用于分析定性评估数据的普遍归纳方法。

    《美国评估杂志》27卷2期(2006年),237-246页。
    https://doi.org/10.1177/1098214005283748

  • 托马斯和约翰斯顿(1981年)

    弗兰克·托马斯和奥利·约翰斯顿。1981年。

    迪士尼动画:生命的幻象。

    纽约阿比维尔出版社。
  •  乌马罗夫等人(2012年)
    Ilshat Umarov,Mikhail Mozgovoy和Patrick C. Rogers。2012年。

    可信且有效的虚拟世界中的人工智能代理:现状与未来展望。

    《国际游戏与计算机中介模拟杂志》4卷2期(2012年),37-59页。

  • 厄普顿和库克(2006年)

    格雷厄姆·阿普顿和伊恩·库克。2006年。

    统计学词典(第二版)。

    牛津大学出版社,英国牛津。
  •  Vinyals等人(2019年)
    Oriol Vinyals, Igor Babuschkin, Wojciech M. Czarnecki等人,2019年。

    使用多智能体强化学习达到《星际争霸II》的大师级水平。

    《自然》575期(2019年),350-354页。
    https://doi.org/10.1038/s41586-019-1724-z
  •  魏等人(2023年)
    韦杰森,王学智,戴尔·舒尔曼斯,马尔滕·博斯马,布莱恩·伊奇特,夏飞,奇·雷,和丹尼·周。2023年。

    链式思维提示在大型语言模型中引发推理。

    arXiv:2201.11903 [cs.CL]
  •  韦泽(1991年)  马克·韦泽。1991年。
    21世纪的电脑。

    《科学美国人》265期,3版(1991年),94-104页。
    https://doi.org/10.1038/scientificamerican0991-94
  •  韦泽(1999年)  马克·韦泽。1999年。
    21世纪的电脑。

    SIGMOBILE移动计算与通信评论,3卷3期(1999年7月),3-11页。
    https://doi.org/10.1145/329124.329126
  •  Weizenbaum(1966)
    约瑟夫·魏岑鲍姆。1966年。

    ELIZA——一款用于研究人机自然语言交流的计算机程序。

    《Commun. ACM 9, 1 (1966), 36–45》
  •  Winograd(1971)  特里·维诺格拉德。1971年。
    计算机程序中的过程作为理解自然语言的数据表示。
    (1971).
  •  吴等人(2021年)
    Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, and Paul Christiano. 2021.

    通过人类反馈递归地总结书籍。

    arXiv:2109.10862 [cs.CL]
  •  吴等人(2022a)
    吴同爽,江艾伦,亚伦·唐斯巴赫,杰夫·格雷,亚历杭德拉·莫利纳,迈克尔·特里和凯丽·J·蔡。2022a。

    PromptChainer:通过可视化编程链接大型语言模型提示。在CHI EA '22:2022年人机交互计算系统因素国际会议的扩展摘要中。
  •  吴等人(2022b)
    吴同爽,迈克尔·特里和蔡嘉琪。2022b。

    AI链:通过链接大型语言模型提示实现透明和可控的人工智能与人类交互。在CHI '22:人机交互计算系统2022年会议论文集中。
  •  杨等人(2020年)
    钱阳,亚伦·斯坦菲尔德,卡罗琳·罗斯和约翰·齐默尔曼。2020年。

    重新审视人工智能与人类互动在设计上的独特困难性、原因和方式。在2020年人机交互计算系统CHI会议论文集中。1-13页。
  •  Yannakakis(2012a)
    Georgios N. Yannakakis. 2012a.

    游戏人工智能再探讨。在《计算前沿第九届会议论文集》中。ACM,意大利卡利亚里,285-292页。
    https://doi.org/10.1145/2212908.2212950
  •  Yannakakis(2012b)
    Geogios N. Yannakakis. 2012b.

    游戏人工智能再探讨。在《计算前沿》第9届会议论文集中。285-292页。
  •  Zubek(2002年)  罗伯特·祖贝克。2002年。
    朝着社交互动的实施迈进。在AAAI春季研讨会上,关于人工智能和互动娱乐的论文集。AAAI出版社。
    https://www.aaai.org/Papers/Symposia/Spring/2002/SS-02-01/SS02-01-003.pdf


附录A:架构优化


我们的许多提示需要对代理人进行简明概述,简称为上述提示中的[代理人概述描述]。在我们的实施中,这个概述包括代理人的身份信息(例如姓名、年龄、个性),以及描述他们主要动机驱动因素和陈述的描述,包括他们目前的职业和自我评估。由于这些信息经常在许多提示中使用,我们定期合成它并将其作为缓存进行访问。


为了实现这一目标,我们对查询“[姓名]的核心特征”进行检索。然后,我们通过提示语言模型来总结检索到的记录中的描述符,例如:


根据以下陈述,如何描述Eddy的核心特征?


林艾迪是奥克希尔学院的学生


学习音乐理论和作曲 - Eddy Lin正在创作一首新的音乐作品[…]


这个结果:Eddy Lin是一名在橡树山学院学习音乐理论和作曲的学生。他喜欢探索不同的音乐风格,并且一直在寻找扩展自己知识的方法。我们在查询“[姓名]目前的日常职业”和“[姓名]对自己最近生活进展的感受”时采用相同的并行处理过程。代理人的姓名、年龄和特点与这三个摘要连接在一起作为缓存摘要。


还有许多其他的优化方法。目前,由于计划很可能会从代理人的初始版本发生变化,我们只提前生成高级计划,然后将近期计划递归地分解为即时的逐时行动计划。另一个优化可能是将对话生成批量化为一个联合提示,而不是在代理人之间来回迭代,重新规划可以被设计成仅使需要调整的计划部分失效和更新。我们目前的架构按照大致的实时游戏时间顺序运行(其中一秒真实时间等于一分钟游戏时间),但可以很容易地并行化,使每个代理人并行运行。


附录B代理人面试问题


为了评估生成型智能体,我们进行了个别访谈,提出了25个问题,探讨了它们在五个关键领域的能力:1)自我认知,2)记忆,3)规划,4)反应,和5)思考。下面,我们列出了在评估研究中使用的访谈问题,并附上了我们模拟智能体 Klaus Mueller 的一些回答样本。

B.1. Self-knowledge


对于代理人自我认知的问题,探究了代理人在性格上展示一致性和连贯性的能力。


  • • 自我介绍一下。

  • 你的职业是什么?

  • 你对什么感兴趣?

  • 你和谁一起住?

  • 描述一下你平常工作日的大致安排。

B.2. Memory


对代理人的记忆进行的问题考察了代理人记忆过去经历和检索相关记忆片段的能力。第一个和最后一个问题方括号中的名字是随机选择的,来自与被试代理人互动过的其他代理人的名字。


  • • [Wolfgang Schulz] 是谁?

  • • Kane Martinez 是谁?

  • 谁参加选举?

  • 有情人节派对吗?

  • • [Ayesha Khan] 是谁?

B.3. Plans


对代理人计划的问题探究了代理人生成和维持其长期和短期计划的能力。


  • 今天早上6点你会做什么?

  • 今天下午6点你会做什么?

  • 今天下午1点你刚刚完成了什么事情?

  • 今天中午12点你刚刚完成了什么事情?

  • 今天晚上10点你会做什么?

B.4. Reactions


对于代理人反应的问题,探究了代理人应对意外事件的能力。


  • 你的早餐要烧焦了!你会怎么办?

  • 卫生间被占用了。你会怎么办?

  • 你需要做晚餐,但是冰箱里什么都没有。你会怎么办?

  • 你看到你的朋友在街上走过。你会怎么做或对你的朋友说什么?

  • 你在街上看到火了。你会怎么做?

B.5. Reflections


对于代理人的反思问题,旨在探究代理人将过去的经验综合起来形成有意义的反思,从而提升其未来的行为能力。下面问题中方括号中的名字是指在模拟过程中,与被调查代理人互动最频繁的代理人的名字。


  • 目前生活中最让你感到灵感的是什么?为什么?

  • • 如果你根据你对[Ayesha Khan]的了解猜测的话,你认为她会喜欢哪本书,为什么?

  • • 如果你必须为Ayesha Khan的生日准备一份她喜欢的礼物,你会送她什么?

  • 你会对[Ayesha Khan]说什么来赞美她?

  • • 如果你能和最近聊过天的某个人共度时光,你会选择谁,为什么?